Articles

XtalPred: a web server for prediction of protein crystallizability

Abstract

Samenvatting: XtalPred is een web server voor het voorspellen van de kristalliseerbaarheid van eiwitten. De voorspelling wordt gedaan door verschillende kenmerken van het eiwit te vergelijken met distributies van deze kenmerken in TargetDB en de resultaten te combineren tot een algemene waarschijnlijkheid van kristallisatie. XtalPred biedt: (1) een gedetailleerde vergelijking van de eiwitkenmerken met de overeenkomstige verdeling uit TargetDB; (2) een samenvatting van eiwitkenmerken en voorspellingen die wijzen op problemen die zich waarschijnlijk zullen voordoen tijdens eiwitkristallisatie; (3) voorspelling van liganden; en (4) (optionele) lijsten van nauwe homologen uit complete microbiële genomen die een grotere kans hebben om te kristalliseren.

Beschikbaarheid: De XtalPred webserver is gratis beschikbaar voor academische gebruikers op http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INLEIDING

De hoge faalratio bij de experimentele bepaling van eiwitstructuren is nog steeds een van de grootste uitdagingen van de structurele biologie. Gegevens van Structural Genomics (SG) centra tonen aan dat het algemene succespercentage in een high-throughput (HT) opstelling slechts rond de 5% ligt en hoewel er geen statistieken beschikbaar zijn voor gewone structurele biologielaboratoria, suggereert anekdotisch bewijs dat het mislukkingspercentage ook zeer hoog is. Bio-informatica hulpmiddelen kunnen helpen bij het herkennen welke eiwitten een grotere kans van slagen hebben en suggesties geven van mogelijke modificaties voor alle andere. Selectie van doelen met de hoogste kans op succes is vooral nuttig voor SG-centra, die zich richten op eiwitfamilies in plaats van individuele eiwitten.

De relatie tussen de kenmerken van eiwitten en hun kristalliseerbaarheid is door verschillende groepen onderzocht (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Traditionele laboratoria rapporteren echter alleen successen bij de structuurbepaling, waardoor datamininganalyses vrijwel onmogelijk zijn door een gebrek aan goed uitgebalanceerde datasets met positieve en negatieve gegevens. Deze situatie veranderde met de oprichting van het Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), dat van de aangesloten centra eist dat ze zowel successen als mislukkingen rapporteren aan een centrale database, TargetDB (Chen et al., 2004). Leerreeksen uit TargetDB hebben meer geavanceerde analyses mogelijk gemaakt (Chandonia et al., 2006; Overton and Barton, 2006; Smialowski et al., 2006), die we hier uitbreiden met gegevens en inzichten die voortkomen uit het werk in het Joint Center for Structural Genomics (JCSG).

We hebben de logaritmische opiniepoolmethode gebruikt (Genest et al., 1984) om de waarschijnlijkheidsverdelingen berekend voor verschillende individuele eiwitkenmerken te combineren tot een “kristallisatie-haalbaarheidsscore” (Slabinski et al., 2007), waarbij we hebben aangetoond dat onze methode het algehele slagingspercentage bij structuurbepaling aanzienlijk kan verbeteren. Analyse van depots in de PDB (Berman et al., 2000) heeft bevestigd dat dezelfde eiwitkenmerken ook een aanzienlijke invloed hebben op de slaagkansen bij standaard, niet-HT structuurbepaling, wat suggereert dat de “kristallisatie-haalbaarheidsscore” ook van significant belang zou zijn voor een brede structuurbiologische gemeenschap. Sinds 2006 wordt ons algoritme met succes gebruikt op de JCSG om optimale structuurbepalingstargets te selecteren uit eiwitfamilies met geen of onvoldoende structurele dekking.

De XtalPred server bouwt voort op de statistische kennis over eiwitkristallisatie die het PSI de afgelopen 7 jaar heeft verzameld en maakt de inzichten uit de HT-structuurbepaling beschikbaar voor een brede gemeenschap van structuurbiologen.

2 SERVER FEATURE SUMMARY

Kristallisatie-analyses: de webserver vergelijkt negen biochemische en biofysische kenmerken van het eiwit dat wordt geanalyseerd met overeenkomstige waarschijnlijkheidsverdelingen uit TargetDB. Voor elk eiwitkenmerk wordt een grafiek gegenereerd met de verdeling van mislukkingen en successen in de uit TargetDB geëxtraheerde reeksen; geïnterpoleerde empirische verdelingen van kristallisatiekansen; en de posities van het eiwit in die verdelingen (Fig. 1).

Fig. 1.

Exemplaar van XtalPred output. De waarschijnlijkheden berekend uit histogrammen verkregen voor individuele eiwitkenmerken (rechter paneel) worden gebruikt om het eiwit toe te wijzen aan de juiste kristallisatie klasse (de linker bovenhoek). Links naar lijsten van homologe eiwitten in verschillende databases bevinden zich in de linker benedenhoek.

Fig. 1.

Exemplaar van XtalPred output. De waarschijnlijkheden berekend uit histogrammen verkregen voor individuele eiwitkenmerken (rechter paneel) worden gebruikt om het eiwit toe te wijzen aan de juiste kristallisatieklasse (de linker bovenhoek). Links naar lijsten van homologe eiwitten in verschillende databases bevinden zich in de linker benedenhoek.

Kristallisatievoorspelling: de voorspelling wordt gemaakt door individuele kristallisatiewaarschijnlijkheden te combineren tot één kristallisatiescore. Op basis van deze score wordt het eiwit ingedeeld in een van de vijf kristallisatieklassen: optimaal, suboptimaal, gemiddeld, moeilijk en zeer moeilijk (fig. 1).

Samenvatting van informatie over het eiwit: de server berekent en voorspelt eiwitkenmerken die verband houden met de kristalliseerbaarheid van het eiwit en vat deze op één webpagina samen. De berekende eiwitkenmerken zijn: eiwitlengte; moleculaire massa; jusindex (Kyte en Doolittle, 1982); instabiliteitsindex (Guruprasad et al., 1990); extinctiecoëfficiënt (Gill en von Hippel, 1989); iso-elektrisch punt (Creighton, 1984); gehalte aan Cys, Met, Trp, Tyr, en Phe residuen; en gemiddeld aantal invoegingen in de uitlijning vergeleken met homologen in niet-redundante (NR) database van eiwitreeksen. De voorspelde kenmerken omvatten: secundaire structuur, ongeordende regio’s, regio’s met lage complexiteit, spiraalvormige regio’s, transmembraanhelixen en signaalpeptiden. De kenmerken die kunnen wijzen op problemen tijdens het kristallisatieproces worden belicht. In het geval van voorspellingen gemaakt door externe software (Sectie 3), is de ruwe output beschikbaar als tekstbestanden.

Nauwkeurige homologs die meer kans hebben om te kristalliseren: vooraf berekende kristallisatie klasse voor alle complete microbiële genomen (momenteel 487 genomen; 1, 549, 504 eiwitten) zijn beschikbaar via de server. Voor elk ingediend eiwit geeft de server een lijst van zijn homologe eiwitten met de informatie over hun kristallisatie-klasse. De lijst bevat ook links naar gedetailleerde informatie over elke homoloog.

Vouw- en ligandvoorspelling: XtalPred biedt sequentie-uitlijning van het ingevoerde eiwit met alle homologe eiwitten in PDB. Het bevat ook een lijst van liganden die zijn gekristalliseerd met homologe eiwitten en hun secundaire structuur.

Kalibaarheid: de server kan tot 10 sequenties in een enkele inzending verwerken. Grotere inzendingen moeten worden besproken met een webserverbeheerder.

Homologs: de server levert de uitlijning met homologs die kunnen worden gebruikt om truncaties voor te stellen.

3 SERVER DETAILS

De XtalPred-server maakt gebruik van verschillende openbaar toegankelijke programma’s voor de berekening en voorspelling van eiwitkenmerken: PSI-BLAST voor het zoeken naar homologie; CD-HIT (Li en Godzik, 2006) voor het clusteren van eiwitsequentiedatabases; COILS (Lupas et al., 1991) voor het voorspellen van coiled-coil regio’s, TMHMM (Krogh et al., 2001) voor de voorspelling van transmembraanhelften; RPSP (Plewczynski et al., 2007) voor de voorspelling van signaalpeptiden, SEG (Wootton, 1994) voor de berekening van regio’s met een lage complexiteit; PSIPRED (Jones, 1999) voor de voorspelling van secundaire structuren; en DISOPRED2 (Ward et al, 2004) voor de voorspelling van structureel ongeordende regio’s.

ACKNOWLEDGEMENTS

Dit werk werd ondersteund door de NIH Protein Structure Initiative subsidies U54 GM074898 (JCSG) en P20 GM076221 (JCMM).

Conflict of Interest: geen verklaard.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Proteïne biofysische eigenschappen die correleren met kristallisatiesucces in Thermotoga maritima: maximum clustering strategy for structural genomics

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

>

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, Engeland )

,

2004

, vol.

20

(pg.

2860

2862

)

>

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Berekening van proteïne-extinctiecoëfficiënten uit aminozuursequentiegegevens

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Voorspelling van de secundaire structuur van eiwitten op basis van positie-specifieke scoringsmatrices

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Een eenvoudige methode om het hydropathische karakter van een eiwit aan te tonen

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, Engeland )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

Een genormaliseerde schaal voor structural genomics target ranking: de OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

De uitdaging van eiwitstructuurbepaling – lessen uit structurele genomica

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Wor my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

>

Ward
J

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

Author notes

Associate Editor: Thomas Lengauer