Articles

XtalPred: webový server pro predikci krystalizovatelnosti proteinů

Abstract

Souhrn: XtalPred je webový server pro predikci krystalizovatelnosti proteinů. Předpověď se provádí porovnáním několika vlastností proteinu s distribucemi těchto vlastností v databázi TargetDB a kombinací výsledků do celkové pravděpodobnosti krystalizace. XtalPred poskytuje: (1) podrobné porovnání vlastností proteinu s odpovídajícím rozdělením z databáze TargetDB; (2) souhrn vlastností proteinu a předpovědí, které naznačují problémy, které se pravděpodobně vyskytnou při krystalizaci proteinu; (3) předpověď ligandů; a (4) (nepovinné) seznamy blízkých homologů z kompletních mikrobiálních genomů, u nichž je větší pravděpodobnost krystalizace.

Dostupnost: Webový server XtalPred je pro akademické uživatele volně dostupný na http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 ÚVOD

Vysoká míra neúspěšnosti experimentálního určování proteinových struktur je stále jedním z největších problémů strukturní biologie. Údaje z center strukturní genomiky (SG) ukazují, že celková úspěšnost v sestavě s vysokou propustností (HT) se pohybuje pouze kolem 5 %, a zatímco pro běžné laboratoře strukturní biologie nejsou k dispozici žádné statistiky, neoficiální důkazy naznačují, že míra neúspěchu je rovněž velmi vysoká. Bioinformatické nástroje mohou pomoci rozpoznat, u kterých proteinů je větší pravděpodobnost úspěchu, a poskytnout návrhy možných modifikací pro všechny ostatní. Výběr cílů s nejvyšší šancí na úspěch je užitečný zejména pro SG centra, která se zaměřují spíše na rodiny proteinů než na jednotlivé proteiny.

Souvislost mezi vlastnostmi proteinů a jejich krystalizovatelností zkoumalo několik skupin (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Tradiční laboratoře však uvádějí pouze úspěchy při určování struktury, což téměř znemožňuje analýzy data miningu kvůli nedostatku vhodně vyvážených souborů dat s pozitivními a negativními údaji. Tato situace se změnila se založením iniciativy Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), která vyžaduje, aby její členská centra hlásila úspěchy i neúspěchy do centrální databáze TargetDB (Chen et al., 2004). Učební soubory získané z TargetDB umožnily pokročilejší analýzy (Chandonia et al., 2006; Overton a Barton, 2006; Smialowski et al., 2006), které zde rozšiřujeme s využitím dat a poznatků vyplývajících z práce ve Společném centru pro strukturní genomiku (JCSG).

Použili jsme metodu logaritmického souboru názorů (Genest et al., 1984) ke spojení pravděpodobnostních rozdělení vypočtených pro několik jednotlivých proteinových znaků do „skóre proveditelnosti krystalizace“ (Slabinski et al., 2007), kde jsme prokázali, že naše metoda může výrazně zlepšit celkovou úspěšnost při určování struktury. Analýza depozit v PDB (Berman et al., 2000) potvrdila, že tytéž proteinové rysy mají podstatný vliv i na úspěšnost při standardním, ne-HT určování struktur, což naznačuje, že „skóre krystalizační proveditelnosti“ by mělo značný význam i pro širokou komunitu strukturní biologie. Od roku 2006 se náš algoritmus úspěšně používá v JCSG k výběru optimálních cílů pro určení struktury z rodin proteinů s žádným nebo nedostatečným strukturním pokrytím.

Server XtalPred staví na statistických znalostech o krystalizaci proteinů shromážděných PSI za posledních 7 let a zpřístupňuje poznatky z určování HT struktur široké komunitě strukturních biologů.

2 SHRNUTÍ FUNKCÍ SERVERU

Krystalizační analýzy: webový server porovnává devět biochemických a biofyzikálních vlastností analyzovaného proteinu s odpovídajícími pravděpodobnostními rozděleními z TargetDB. Pro každou vlastnost proteinu je vytvořen graf, který zobrazuje rozdělení neúspěchů a úspěchů v souborech získaných z databáze TargetDB; interpolovaná empirická rozdělení pravděpodobnosti krystalizace; a pozice proteinu v těchto rozděleních (obr. 1).

Obr. 1.

Příklad výstupu programu XtalPred. Pravděpodobnosti vypočtené z histogramů získaných pro jednotlivé vlastnosti proteinu (pravý panel) slouží k zařazení proteinu do příslušné krystalizační třídy (levý horní roh). Odkazy na seznamy homologů nalezených v různých databázích jsou umístěny v levém dolním rohu.

Obr. 1.

Příklad výstupu XtalPred. Pravděpodobnosti vypočtené z histogramů získaných pro jednotlivé znaky proteinu (pravý panel) se použijí k přiřazení proteinu do příslušné krystalizační třídy (levý horní roh). Odkazy na seznamy homologů nalezených v různých databázích jsou umístěny v levém dolním rohu.

Předpověď krystalizace: Předpověď se provádí spojením jednotlivých krystalizačních pravděpodobností do jednoho krystalizačního skóre. Na základě tohoto skóre je protein zařazen do jedné z pěti krystalizačních tříd: optimální, suboptimální, průměrná, obtížná a velmi obtížná (obr. 1).

Souhrn informací o proteinu: server vypočítá a předpoví vlastnosti proteinu, které souvisejí s jeho krystalizovatelností, a shrne je na jedné webové stránce. Mezi vypočtené vlastnosti proteinu patří: délka proteinu; molekulová hmotnost; gravy index (Kyte a Doolittle, 1982); index nestability (Guruprasad a kol., 1990); extinkční koeficient (Gill a von Hippel, 1989); izoelektrický bod (Creighton, 1984); obsah zbytků Cys, Met, Trp, Tyr a Phe; a průměrný počet inzercí v zarovnání ve srovnání s homology v neredundantní (NR) databázi proteinových sekvencí. Předpovídané vlastnosti zahrnují: sekundární strukturu, neuspořádané oblasti, oblasti s nízkou komplexitou, oblasti vinuté spirály, transmembránové šroubovice a signální peptidy. Jsou zvýrazněny rysy, které mohou naznačovat problémy během procesu krystalizace. V případě předpovědí provedených externím softwarem (oddíl 3) je surový výstup k dispozici ve formě textových souborů.

Blízké homology, u kterých je větší pravděpodobnost krystalizace: na serveru jsou k dispozici předpočítané krystalizační třídy pro všechny kompletní mikrobiální genomy (v současnosti 487 genomů; 1, 549, 504 proteinů). Pro každý předložený protein server poskytuje seznam jeho homologů s informací o jejich třídě krystalizovatelnosti. Seznam obsahuje také odkazy na podrobné informace o každém homologu.

Předpověď složení a ligandů: XtalPred poskytuje zarovnání sekvence vstupního proteinu se všemi homologními proteiny v PDB. Obsahuje také seznam ligandů vykrystalizovaných společně s homologními proteiny a jejich sekundární strukturu.

Škálovatelnost: Server může zpracovat až 10 sekvencí v jednom podání. Větší podání je třeba projednat se správcem webového serveru.

Homologové: server poskytuje zarovnání s homology, které lze použít k návrhu zkrácení.

3 PODROBNOSTI O SERVERU

Server XtalPred používá několik veřejně dostupných programů pro výpočet a předpověď vlastností proteinů: PSI-BLAST pro vyhledávání homologie; CD-HIT (Li a Godzik, 2006) pro shlukování databází proteinových sekvencí; COILS (Lupas a kol., 1991) pro predikci oblastí vinutých spirál, TMHMM (Krogh a kol., 2001) pro predikci transmembránových šroubovic, RPSP (Plewczynski et al., 2007) pro predikci signálních peptidů, SEG (Wootton, 1994) pro výpočet nízkokomplexových oblastí, PSIPRED (Jones, 1999) pro predikci sekundární struktury a DISOPRED2 (Ward et al., 2004) pro predikci strukturně neuspořádaných oblastí.

PODĚKOVÁNÍ

Tato práce byla podpořena granty NIH Protein Structure Initiative U54 GM074898 (JCSG) a P20 GM076221 (JCMM).

Konflikt zájmů: nebyl deklarován.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, sv.

28

(str.

235

242

)

Bertone
P

, et al.

SPINE: integrovaná sledovací databáze a přístup k dolování dat pro identifikaci proveditelných cílů ve vysokokapacitní strukturní proteomice

,

Nucleic Acids Res

,

2001

, vol.

29

(str.

2884

2898

)

Canaves
JM

, et al.

Biofyzikální vlastnosti proteinů, které korelují s úspěšností krystalizace u Thermotoga maritima: strategie maximálního shlukování pro strukturní genomiku

,

J. Mol. Biol

,

2004

, vol.

344

(str.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(str.

356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, roč.

20

(str.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, svazek

17

(str.

61

70

)

Gill
SC

,

von Hippel
PH

.

Výpočet extinkčních koeficientů proteinů z údajů o sekvenci aminokyselin

,

Anal. Biochem

,

1989

, vol.

182

(str.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(str.

115

130

)

Guruprasad
K

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

,

Protein Eng

,

1990

, roč.

4

(str.

155

161

)

Jones
DT

.

Protein secondary structure prediction based on position-specific scoring matrices

,

J. Mol. Biol

,

1999

, vol.

292

(str.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(str.

567

580

)

Kyte
J

,

Doolittle
RF

.

Jednoduchá metoda zobrazení hydropatického charakteru proteinu

,

J. Mol. Biol

,

1982

, vol.

157

(str.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: rychlý program pro shlukování a porovnávání velkých souborů proteinových nebo nukleotidových sekvencí

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(str.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(str.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, roč.

59

(str.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(str.

4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(str.

5493

5496

)

Slabinski
L

, et al.

The challenge of protein structure determination – lessons from structural genomics

,

Protein Sci

,

2007

, roč.

16

(str.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(str.

343

355

)

Ward
JJ

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(str.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, roč.

18

(str.

269

285

)

Autorské poznámky

Společný redaktor: Thomas Lengauer