Articles

XtalPred: a web server for prediction of protein crystallizability

juli 16, 2021 by admin

Abstract

Samenvatting: XtalPred is een web server voor het voorspellen van de kristalliseerbaarheid van eiwitten. De voorspelling wordt gedaan door verschillende kenmerken van het eiwit te vergelijken met distributies van deze kenmerken in TargetDB en de resultaten te combineren tot een algemene waarschijnlijkheid van kristallisatie. XtalPred biedt: (1) een gedetailleerde vergelijking van de eiwitkenmerken met de overeenkomstige verdeling uit TargetDB; (2) een samenvatting van eiwitkenmerken en voorspellingen die wijzen op problemen die zich waarschijnlijk zullen voordoen tijdens eiwitkristallisatie; (3) voorspelling van liganden; en (4) (optionele) lijsten van nauwe homologen uit complete microbiële genomen die een grotere kans hebben om te kristalliseren.

Beschikbaarheid: De XtalPred webserver is gratis beschikbaar voor academische gebruikers op http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INLEIDING

De hoge faalratio bij de experimentele bepaling van eiwitstructuren is nog steeds een van de grootste uitdagingen van de structurele biologie. Gegevens van Structural Genomics (SG) centra tonen aan dat het algemene succespercentage in een high-throughput (HT) opstelling slechts rond de 5% ligt en hoewel er geen statistieken beschikbaar zijn voor gewone structurele biologielaboratoria, suggereert anekdotisch bewijs dat het mislukkingspercentage ook zeer hoog is. Bio-informatica hulpmiddelen kunnen helpen bij het herkennen welke eiwitten een grotere kans van slagen hebben en suggesties geven van mogelijke modificaties voor alle andere. Selectie van doelen met de hoogste kans op succes is vooral nuttig voor SG-centra, die zich richten op eiwitfamilies in plaats van individuele eiwitten.

De relatie tussen de kenmerken van eiwitten en hun kristalliseerbaarheid is door verschillende groepen onderzocht (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Traditionele laboratoria rapporteren echter alleen successen bij de structuurbepaling, waardoor datamininganalyses vrijwel onmogelijk zijn door een gebrek aan goed uitgebalanceerde datasets met positieve en negatieve gegevens. Deze situatie veranderde met de oprichting van het Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), dat van de aangesloten centra eist dat ze zowel successen als mislukkingen rapporteren aan een centrale database, TargetDB (Chen et al., 2004). Leerreeksen uit TargetDB hebben meer geavanceerde analyses mogelijk gemaakt (Chandonia et al., 2006; Overton and Barton, 2006; Smialowski et al., 2006), die we hier uitbreiden met gegevens en inzichten die voortkomen uit het werk in het Joint Center for Structural Genomics (JCSG).

We hebben de logaritmische opiniepoolmethode gebruikt (Genest et al., 1984) om de waarschijnlijkheidsverdelingen berekend voor verschillende individuele eiwitkenmerken te combineren tot een “kristallisatie-haalbaarheidsscore” (Slabinski et al., 2007), waarbij we hebben aangetoond dat onze methode het algehele slagingspercentage bij structuurbepaling aanzienlijk kan verbeteren. Analyse van depots in de PDB (Berman et al., 2000) heeft bevestigd dat dezelfde eiwitkenmerken ook een aanzienlijke invloed hebben op de slaagkansen bij standaard, niet-HT structuurbepaling, wat suggereert dat de “kristallisatie-haalbaarheidsscore” ook van significant belang zou zijn voor een brede structuurbiologische gemeenschap. Sinds 2006 wordt ons algoritme met succes gebruikt op de JCSG om optimale structuurbepalingstargets te selecteren uit eiwitfamilies met geen of onvoldoende structurele dekking.

De XtalPred server bouwt voort op de statistische kennis over eiwitkristallisatie die het PSI de afgelopen 7 jaar heeft verzameld en maakt de inzichten uit de HT-structuurbepaling beschikbaar voor een brede gemeenschap van structuurbiologen.

2 SERVER FEATURE SUMMARY

Kristallisatie-analyses: de webserver vergelijkt negen biochemische en biofysische kenmerken van het eiwit dat wordt geanalyseerd met overeenkomstige waarschijnlijkheidsverdelingen uit TargetDB. Voor elk eiwitkenmerk wordt een grafiek gegenereerd met de verdeling van mislukkingen en successen in de uit TargetDB geëxtraheerde reeksen; geïnterpoleerde empirische verdelingen van kristallisatiekansen; en de posities van het eiwit in die verdelingen (Fig. 1).

Fig. 1.

Exemplaar van XtalPred output. De waarschijnlijkheden berekend uit histogrammen verkregen voor individuele eiwitkenmerken (rechter paneel) worden gebruikt om het eiwit toe te wijzen aan de juiste kristallisatie klasse (de linker bovenhoek). Links naar lijsten van homologe eiwitten in verschillende databases bevinden zich in de linker benedenhoek.

Fig. 1.

Exemplaar van XtalPred output. De waarschijnlijkheden berekend uit histogrammen verkregen voor individuele eiwitkenmerken (rechter paneel) worden gebruikt om het eiwit toe te wijzen aan de juiste kristallisatieklasse (de linker bovenhoek). Links naar lijsten van homologe eiwitten in verschillende databases bevinden zich in de linker benedenhoek.

Kristallisatievoorspelling: de voorspelling wordt gemaakt door individuele kristallisatiewaarschijnlijkheden te combineren tot één kristallisatiescore. Op basis van deze score wordt het eiwit ingedeeld in een van de vijf kristallisatieklassen: optimaal, suboptimaal, gemiddeld, moeilijk en zeer moeilijk (fig. 1).

Samenvatting van informatie over het eiwit: de server berekent en voorspelt eiwitkenmerken die verband houden met de kristalliseerbaarheid van het eiwit en vat deze op één webpagina samen. De berekende eiwitkenmerken zijn: eiwitlengte; moleculaire massa; jusindex (Kyte en Doolittle, 1982); instabiliteitsindex (Guruprasad et al., 1990); extinctiecoëfficiënt (Gill en von Hippel, 1989); iso-elektrisch punt (Creighton, 1984); gehalte aan Cys, Met, Trp, Tyr, en Phe residuen; en gemiddeld aantal invoegingen in de uitlijning vergeleken met homologen in niet-redundante (NR) database van eiwitreeksen. De voorspelde kenmerken omvatten: secundaire structuur, ongeordende regio’s, regio’s met lage complexiteit, spiraalvormige regio’s, transmembraanhelixen en signaalpeptiden. De kenmerken die kunnen wijzen op problemen tijdens het kristallisatieproces worden belicht. In het geval van voorspellingen gemaakt door externe software (Sectie 3), is de ruwe output beschikbaar als tekstbestanden.

Nauwkeurige homologs die meer kans hebben om te kristalliseren: vooraf berekende kristallisatie klasse voor alle complete microbiële genomen (momenteel 487 genomen; 1, 549, 504 eiwitten) zijn beschikbaar via de server. Voor elk ingediend eiwit geeft de server een lijst van zijn homologe eiwitten met de informatie over hun kristallisatie-klasse. De lijst bevat ook links naar gedetailleerde informatie over elke homoloog.

Vouw- en ligandvoorspelling: XtalPred biedt sequentie-uitlijning van het ingevoerde eiwit met alle homologe eiwitten in PDB. Het bevat ook een lijst van liganden die zijn gekristalliseerd met homologe eiwitten en hun secundaire structuur.

Kalibaarheid: de server kan tot 10 sequenties in een enkele inzending verwerken. Grotere inzendingen moeten worden besproken met een webserverbeheerder.

Homologs: de server levert de uitlijning met homologs die kunnen worden gebruikt om truncaties voor te stellen.

3 SERVER DETAILS

De XtalPred-server maakt gebruik van verschillende openbaar toegankelijke programma’s voor de berekening en voorspelling van eiwitkenmerken: PSI-BLAST voor het zoeken naar homologie; CD-HIT (Li en Godzik, 2006) voor het clusteren van eiwitsequentiedatabases; COILS (Lupas et al., 1991) voor het voorspellen van coiled-coil regio’s, TMHMM (Krogh et al., 2001) voor de voorspelling van transmembraanhelften; RPSP (Plewczynski et al., 2007) voor de voorspelling van signaalpeptiden, SEG (Wootton, 1994) voor de berekening van regio’s met een lage complexiteit; PSIPRED (Jones, 1999) voor de voorspelling van secundaire structuren; en DISOPRED2 (Ward et al, 2004) voor de voorspelling van structureel ongeordende regio’s.

ACKNOWLEDGEMENTS

Dit werk werd ondersteund door de NIH Protein Structure Initiative subsidies U54 GM074898 (JCSG) en P20 GM076221 (JCMM).

Conflict of Interest: geen verklaard.

Berman

, et al.

The Protein Data Bank

Nucleic Acids Res

2000

, vol.

(pg.

235

–

242

)

Bertone

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

Nucleic Acids Res

2001

, vol.

(pg.

2884

–

2898

)

Canaves

, et al.

Proteïne biofysische eigenschappen die correleren met kristallisatiesucces in Thermotoga maritima: maximum clustering strategy for structural genomics

J. Mol. Biol

2004

, vol.

344

(pg.

977

–

991

)

Chandonia

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

Proteins

2006

, vol.

(pg.

356

–

370

)

Chen

, et al.

TargetDB: a target registration database for structural genomics projects

Bioinformatics (Oxford, Engeland )

2004

, vol.

(pg.

2860

–

2862

)

Creighton

. ,

Proteins: Structure and Molecular Properties

1984

New York

W. H. Freeman and Co

Genest

, et al.

Aggregating opinions through logarithmic pooling

Theor. Decis

1984

, vol.

(pg.

–

)

Gill

von Hippel

Berekening van proteïne-extinctiecoëfficiënten uit aminozuursequentiegegevens

Anal. Biochem

1989

, vol.

182

(pg.

319

–

326

)

Goh

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

J. Mol. Biol

2004

, vol.

336

(pg.

115

–

130

)

Guruprasad

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

Protein Eng

1990

, vol.

(pg.

155

–

161

)

Jones

Voorspelling van de secundaire structuur van eiwitten op basis van positie-specifieke scoringsmatrices

J. Mol. Biol

1999

, vol.

292

(pg.

195

–

202

)

Krogh

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

J. Mol. Biol

2001

, vol.

305

(pg.

567

–

580

)

Kyte

Doolittle

Een eenvoudige methode om het hydropathische karakter van een eiwit aan te tonen

J. Mol. Biol

1982

, vol.

157

(pg.

105

–

132

)

Godzik

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

Bioinformatics (Oxford, Engeland )

2006

, vol.

(pg.

1658

–

1659

)

Lupas

, et al.

Predicting coiled coils from protein sequences

Science

1991

, vol.

252

(pg.

1162

–

1164

)

Oldfield

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

Proteins

2005

, vol.

(pg.

444

–

453

)

Overton

Barton

Een genormaliseerde schaal voor structural genomics target ranking: de OB-Score

FEBS Lett

2006

, vol.

580

(pg.

4005

–

4009

)

Plewczynski

, et al.

The RPSP: Web server for prediction of signal peptides

Polymer

2007

, vol.

(pg.

5493

–

5496

)

Slabinski

, et al.

De uitdaging van eiwitstructuurbepaling – lessen uit structurele genomica

Protein Sci

2007

, vol.

(pg.

2472

–

2482

)

Smialowski

, et al.

Wor my protein crystallize? A sequence-based predictor

Proteins

2006

, vol.

(pg.

343

–

355

)

Ward

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

J. Mol. Biol

2004

, vol.

337

(pg.

635

–

645

)

Wootton

Non-globular domains in protein sequences: automated segmentation using complexity measures

Comput. Chem

1994

, vol.

(pg.

269

–

285

)

Author notes

Associate Editor: Thomas Lengauer

Digital Travel

XtalPred: a web server for prediction of protein crystallizability

Abstract

1 INLEIDING

2 SERVER FEATURE SUMMARY

3 SERVER DETAILS

ACKNOWLEDGEMENTS

Author notes

Geef een antwoord Reactie annuleren

Archieven

Meta