Articles

XtalPred: ein Webserver zur Vorhersage der Kristallisierbarkeit von Proteinen

Abstract

Summary: XtalPred ist ein Webserver zur Vorhersage der Kristallisierbarkeit von Proteinen. Die Vorhersage erfolgt durch den Vergleich mehrerer Merkmale des Proteins mit Verteilungen dieser Merkmale in TargetDB und die Kombination der Ergebnisse zu einer Gesamtwahrscheinlichkeit der Kristallisation. XtalPred bietet: (1) einen detaillierten Vergleich der Proteinmerkmale mit der entsprechenden Verteilung aus TargetDB; (2) eine Zusammenfassung der Proteinmerkmale und -vorhersagen, die auf Probleme hinweisen, die bei der Proteinkristallisation wahrscheinlich auftreten; (3) eine Vorhersage von Liganden; und (4) (optional) Listen von nahen Homologen aus vollständigen mikrobiellen Genomen, die mit höherer Wahrscheinlichkeit kristallisieren werden.

Verfügbarkeit: Der XtalPred-Webserver ist für akademische Nutzer frei verfügbar unter http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 EINLEITUNG

Die hohe Fehlerquote bei der experimentellen Bestimmung von Proteinstrukturen ist immer noch eine der größten Herausforderungen der Strukturbiologie. Daten aus Zentren für strukturelle Genomik (SG) zeigen, dass die Gesamterfolgsrate in einem Hochdurchsatzaufbau (HT) nur bei etwa 5 % liegt, und während für reguläre Strukturbiologielabors keine Statistiken verfügbar sind, legen Erfahrungswerte nahe, dass die Misserfolgsrate ebenfalls sehr hoch ist. Bioinformatik-Tools können dabei helfen, zu erkennen, welche Proteine eine höhere Erfolgswahrscheinlichkeit haben, und für alle anderen mögliche Änderungen vorschlagen. Die Auswahl der Ziele mit den höchsten Erfolgschancen ist besonders für SG-Zentren nützlich, die eher auf Proteinfamilien als auf einzelne Proteine abzielen.

Die Beziehung zwischen den Eigenschaften von Proteinen und ihrer Kristallisierbarkeit wurde von mehreren Gruppen untersucht (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Herkömmliche Labors berichten jedoch nur über Erfolge bei der Strukturbestimmung, was Data-Mining-Analysen aufgrund des Mangels an entsprechend ausgewogenen Datensätzen mit positiven und negativen Daten fast unmöglich macht. Diese Situation änderte sich mit der Gründung der Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), die von ihren Mitgliedszentren verlangt, sowohl Erfolge als auch Misserfolge an eine zentrale Datenbank, TargetDB (Chen et al., 2004), zu melden. Aus TargetDB extrahierte Lernsätze haben fortgeschrittenere Analysen ermöglicht (Chandonia et al., 2006; Overton und Barton, 2006; Smialowski et al., 2006), die wir hier unter Verwendung von Daten und Erkenntnissen aus der Arbeit des Joint Center for Structural Genomics (JCSG) erweitern.

Wir haben die logarithmische Meinungspool-Methode (Genest et al., 1984) verwendet, um die für mehrere individuelle Proteinmerkmale berechneten Wahrscheinlichkeitsverteilungen zu einem „crystallization feasibility score“ (Slabinski et al., 2007) zu kombinieren, wobei wir gezeigt haben, dass unsere Methode die Gesamterfolgsrate bei der Strukturbestimmung deutlich verbessern kann. Die Analyse von Ablagerungen in der PDB (Berman et al., 2000) hat bestätigt, dass dieselben Proteinmerkmale auch einen erheblichen Einfluss auf die Erfolgsraten bei der Standardstrukturbestimmung ohne HT haben, was darauf hindeutet, dass der „crystallization feasibility score“ auch für eine breite strukturbiologische Gemeinschaft von großem Interesse sein könnte. Seit 2006 wird unser Algorithmus erfolgreich bei der JCSG eingesetzt, um optimale Ziele für die Strukturbestimmung aus Proteinfamilien ohne oder mit unzureichender Strukturabdeckung auszuwählen.

Der XtalPred-Server baut auf dem statistischen Wissen über die Proteinkristallisation auf, das das PSI in den letzten sieben Jahren gesammelt hat, und macht die Erkenntnisse aus der HT-Strukturbestimmung einer breiten Gemeinschaft von Strukturbiologen zugänglich.

2 SERVER FEATURE SUMMARY

Kristallisationsanalysen: Der Webserver vergleicht neun biochemische und biophysikalische Merkmale des zu analysierenden Proteins mit entsprechenden Wahrscheinlichkeitsverteilungen aus TargetDB. Für jedes Proteinmerkmal wird ein Diagramm erstellt, das die Verteilungen von Fehlschlägen und Erfolgen in den aus TargetDB extrahierten Sätzen, interpolierte empirische Verteilungen der Kristallisationswahrscheinlichkeit und die Positionen des Proteins in diesen Verteilungen zeigt (Abb. 1).

Abb. 1.

Beispiel für die Ausgabe von XtalPred. Die aus den Histogrammen der einzelnen Proteinmerkmale berechneten Wahrscheinlichkeiten (rechtes Feld) werden verwendet, um das Protein der entsprechenden Kristallisationsklasse zuzuordnen (linke obere Ecke). Links zu Listen von in verschiedenen Datenbanken gefundenen Homologen befinden sich in der linken unteren Ecke.

Abb. 1.

Beispiel für die Ausgabe von XtalPred. Die aus den Histogrammen der einzelnen Proteinmerkmale berechneten Wahrscheinlichkeiten (rechte Tafel) werden verwendet, um das Protein der entsprechenden Kristallisationsklasse zuzuordnen (linke obere Ecke). Links zu Listen von Homologen, die in verschiedenen Datenbanken gefunden wurden, befinden sich in der linken unteren Ecke.

Kristallisationsvorhersage: Die Vorhersage erfolgt durch Kombination der einzelnen Kristallisationswahrscheinlichkeiten zu einem einzigen Kristallisationsergebnis. Auf der Grundlage dieses Ergebnisses wird das Protein einer von fünf Kristallisationsklassen zugeordnet: optimal, suboptimal, durchschnittlich, schwierig und sehr schwierig (Abb. 1).

Zusammenfassung der Informationen über das Protein: Der Server berechnet und prognostiziert Proteinmerkmale, die mit der Kristallisierbarkeit des Proteins zusammenhängen, und fasst sie auf einer Webseite zusammen. Zu den berechneten Proteinmerkmalen gehören: Proteinlänge, Molekularmasse, Gravy-Index (Kyte und Doolittle, 1982), Instabilitätsindex (Guruprasad et al., 1990), Extinktionskoeffizient (Gill und von Hippel, 1989), isoelektrischer Punkt (Creighton, 1984), Gehalt an Cys-, Met-, Trp-, Tyr- und Phe-Resten und durchschnittliche Anzahl der Einfügungen im Alignment im Vergleich zu Homologen in der nicht redundanten (NR) Datenbank für Proteinsequenzen. Zu den vorhergesagten Merkmalen gehören: Sekundärstruktur, ungeordnete Regionen, Regionen mit geringer Komplexität, Coiled-Coil-Regionen, Transmembranhelices und Signalpeptide. Die Merkmale, die auf Probleme während des Kristallisationsprozesses hinweisen können, werden hervorgehoben. Im Falle von Vorhersagen durch externe Software (Abschnitt 3) sind die Rohdaten als Textdateien verfügbar.

Homologe, die mit größerer Wahrscheinlichkeit kristallisieren werden, schließen: Vorberechnete Kristallisationsklassen für alle vollständigen mikrobiellen Genome (derzeit 487 Genome; 1.549.504 Proteine) sind auf dem Server verfügbar. Für jedes eingereichte Protein bietet der Server eine Liste seiner Homologe mit Informationen über deren Kristallisierbarkeitsklasse. Die Liste enthält auch Links zu detaillierten Informationen über jedes Homolog.

Falt- und Ligandenvorhersage: XtalPred bietet ein Sequenz-Alignment des Eingabeproteins mit allen homologen Proteinen in der PDB. Es enthält auch eine Liste von Liganden, die mit homologen Proteinen ko-kristallisiert sind, sowie deren Sekundärstruktur.

Skalierbarkeit: Der Server kann bis zu 10 Sequenzen in einer einzigen Eingabe verarbeiten. Größere Eingaben sollten mit einem Webserver-Administrator besprochen werden.

Homologe: Der Server stellt das Alignment mit Homologen zur Verfügung, die verwendet werden können, um Trunkierungen vorzuschlagen.

3 SERVER DETAILS

Der XtalPred-Server verwendet mehrere öffentlich verfügbare Programme zur Berechnung und Vorhersage von Proteinmerkmalen: PSI-BLAST für die Homologiesuche; CD-HIT (Li und Godzik, 2006) für das Clustering von Proteinsequenzdatenbanken; COILS (Lupas et al., 1991) für die Vorhersage von Coiled-Coil-Regionen, TMHMM (Krogh et al., 2001) für die Vorhersage von Transmembran-Helices, RPSP (Plewczynski et al., 2007) für die Vorhersage von Signalpeptiden, SEG (Wootton, 1994) für die Berechnung von Regionen mit geringer Komplexität, PSIPRED (Jones, 1999) für die Vorhersage von Sekundärstrukturen und DISOPRED2 (Ward et al., 2004) für die Vorhersage strukturell ungeordneter Regionen.

HINWEISE

Diese Arbeit wurde von den NIH Protein Structure Initiative grants U54 GM074898 (JCSG) und P20 GM076221 (JCMM) unterstützt.

Interessenkonflikt: keiner angegeben.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Protein biophysikalische Eigenschaften, die mit dem Kristallisationserfolg in Thermotoga maritima korrelieren: maximale Clusterstrategie für strukturelle Genomik

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, Bd.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Berechnung von Protein-Extinktionskoeffizienten aus Aminosäuresequenzdaten

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Protein-Sekundärstrukturvorhersage basierend auf positionsspezifischen Scoring-Matrizen

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Eine einfache Methode zur Darstellung des hydropathischen Charakters eines Proteins

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

The challenge of protein structure determination – lessons from structural genomics

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, vol.

18

(S.

269

285

)

Autorenhinweise

Mitwirkende Herausgeber: Thomas Lengauer