XtalPred: webový server pro predikci krystalizovatelnosti proteinů
Abstract
Souhrn: XtalPred je webový server pro predikci krystalizovatelnosti proteinů. Předpověď se provádí porovnáním několika vlastností proteinu s distribucemi těchto vlastností v databázi TargetDB a kombinací výsledků do celkové pravděpodobnosti krystalizace. XtalPred poskytuje: (1) podrobné porovnání vlastností proteinu s odpovídajícím rozdělením z databáze TargetDB; (2) souhrn vlastností proteinu a předpovědí, které naznačují problémy, které se pravděpodobně vyskytnou při krystalizaci proteinu; (3) předpověď ligandů; a (4) (nepovinné) seznamy blízkých homologů z kompletních mikrobiálních genomů, u nichž je větší pravděpodobnost krystalizace.
Dostupnost: Webový server XtalPred je pro akademické uživatele volně dostupný na http://ffas.burnham.org/XtalPred
Contact:[email protected]
1 ÚVOD
Vysoká míra neúspěšnosti experimentálního určování proteinových struktur je stále jedním z největších problémů strukturní biologie. Údaje z center strukturní genomiky (SG) ukazují, že celková úspěšnost v sestavě s vysokou propustností (HT) se pohybuje pouze kolem 5 %, a zatímco pro běžné laboratoře strukturní biologie nejsou k dispozici žádné statistiky, neoficiální důkazy naznačují, že míra neúspěchu je rovněž velmi vysoká. Bioinformatické nástroje mohou pomoci rozpoznat, u kterých proteinů je větší pravděpodobnost úspěchu, a poskytnout návrhy možných modifikací pro všechny ostatní. Výběr cílů s nejvyšší šancí na úspěch je užitečný zejména pro SG centra, která se zaměřují spíše na rodiny proteinů než na jednotlivé proteiny.
Souvislost mezi vlastnostmi proteinů a jejich krystalizovatelností zkoumalo několik skupin (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Tradiční laboratoře však uvádějí pouze úspěchy při určování struktury, což téměř znemožňuje analýzy data miningu kvůli nedostatku vhodně vyvážených souborů dat s pozitivními a negativními údaji. Tato situace se změnila se založením iniciativy Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), která vyžaduje, aby její členská centra hlásila úspěchy i neúspěchy do centrální databáze TargetDB (Chen et al., 2004). Učební soubory získané z TargetDB umožnily pokročilejší analýzy (Chandonia et al., 2006; Overton a Barton, 2006; Smialowski et al., 2006), které zde rozšiřujeme s využitím dat a poznatků vyplývajících z práce ve Společném centru pro strukturní genomiku (JCSG).
Použili jsme metodu logaritmického souboru názorů (Genest et al., 1984) ke spojení pravděpodobnostních rozdělení vypočtených pro několik jednotlivých proteinových znaků do „skóre proveditelnosti krystalizace“ (Slabinski et al., 2007), kde jsme prokázali, že naše metoda může výrazně zlepšit celkovou úspěšnost při určování struktury. Analýza depozit v PDB (Berman et al., 2000) potvrdila, že tytéž proteinové rysy mají podstatný vliv i na úspěšnost při standardním, ne-HT určování struktur, což naznačuje, že „skóre krystalizační proveditelnosti“ by mělo značný význam i pro širokou komunitu strukturní biologie. Od roku 2006 se náš algoritmus úspěšně používá v JCSG k výběru optimálních cílů pro určení struktury z rodin proteinů s žádným nebo nedostatečným strukturním pokrytím.
Server XtalPred staví na statistických znalostech o krystalizaci proteinů shromážděných PSI za posledních 7 let a zpřístupňuje poznatky z určování HT struktur široké komunitě strukturních biologů.
2 SHRNUTÍ FUNKCÍ SERVERU
Krystalizační analýzy: webový server porovnává devět biochemických a biofyzikálních vlastností analyzovaného proteinu s odpovídajícími pravděpodobnostními rozděleními z TargetDB. Pro každou vlastnost proteinu je vytvořen graf, který zobrazuje rozdělení neúspěchů a úspěchů v souborech získaných z databáze TargetDB; interpolovaná empirická rozdělení pravděpodobnosti krystalizace; a pozice proteinu v těchto rozděleních (obr. 1).
Příklad výstupu programu XtalPred. Pravděpodobnosti vypočtené z histogramů získaných pro jednotlivé vlastnosti proteinu (pravý panel) slouží k zařazení proteinu do příslušné krystalizační třídy (levý horní roh). Odkazy na seznamy homologů nalezených v různých databázích jsou umístěny v levém dolním rohu.
Příklad výstupu XtalPred. Pravděpodobnosti vypočtené z histogramů získaných pro jednotlivé znaky proteinu (pravý panel) se použijí k přiřazení proteinu do příslušné krystalizační třídy (levý horní roh). Odkazy na seznamy homologů nalezených v různých databázích jsou umístěny v levém dolním rohu.
Předpověď krystalizace: Předpověď se provádí spojením jednotlivých krystalizačních pravděpodobností do jednoho krystalizačního skóre. Na základě tohoto skóre je protein zařazen do jedné z pěti krystalizačních tříd: optimální, suboptimální, průměrná, obtížná a velmi obtížná (obr. 1).
Souhrn informací o proteinu: server vypočítá a předpoví vlastnosti proteinu, které souvisejí s jeho krystalizovatelností, a shrne je na jedné webové stránce. Mezi vypočtené vlastnosti proteinu patří: délka proteinu; molekulová hmotnost; gravy index (Kyte a Doolittle, 1982); index nestability (Guruprasad a kol., 1990); extinkční koeficient (Gill a von Hippel, 1989); izoelektrický bod (Creighton, 1984); obsah zbytků Cys, Met, Trp, Tyr a Phe; a průměrný počet inzercí v zarovnání ve srovnání s homology v neredundantní (NR) databázi proteinových sekvencí. Předpovídané vlastnosti zahrnují: sekundární strukturu, neuspořádané oblasti, oblasti s nízkou komplexitou, oblasti vinuté spirály, transmembránové šroubovice a signální peptidy. Jsou zvýrazněny rysy, které mohou naznačovat problémy během procesu krystalizace. V případě předpovědí provedených externím softwarem (oddíl 3) je surový výstup k dispozici ve formě textových souborů.
Blízké homology, u kterých je větší pravděpodobnost krystalizace: na serveru jsou k dispozici předpočítané krystalizační třídy pro všechny kompletní mikrobiální genomy (v současnosti 487 genomů; 1, 549, 504 proteinů). Pro každý předložený protein server poskytuje seznam jeho homologů s informací o jejich třídě krystalizovatelnosti. Seznam obsahuje také odkazy na podrobné informace o každém homologu.
Předpověď složení a ligandů: XtalPred poskytuje zarovnání sekvence vstupního proteinu se všemi homologními proteiny v PDB. Obsahuje také seznam ligandů vykrystalizovaných společně s homologními proteiny a jejich sekundární strukturu.
Škálovatelnost: Server může zpracovat až 10 sekvencí v jednom podání. Větší podání je třeba projednat se správcem webového serveru.
Homologové: server poskytuje zarovnání s homology, které lze použít k návrhu zkrácení.
3 PODROBNOSTI O SERVERU
Server XtalPred používá několik veřejně dostupných programů pro výpočet a předpověď vlastností proteinů: PSI-BLAST pro vyhledávání homologie; CD-HIT (Li a Godzik, 2006) pro shlukování databází proteinových sekvencí; COILS (Lupas a kol., 1991) pro predikci oblastí vinutých spirál, TMHMM (Krogh a kol., 2001) pro predikci transmembránových šroubovic, RPSP (Plewczynski et al., 2007) pro predikci signálních peptidů, SEG (Wootton, 1994) pro výpočet nízkokomplexových oblastí, PSIPRED (Jones, 1999) pro predikci sekundární struktury a DISOPRED2 (Ward et al., 2004) pro predikci strukturně neuspořádaných oblastí.
PODĚKOVÁNÍ
Tato práce byla podpořena granty NIH Protein Structure Initiative U54 GM074898 (JCSG) a P20 GM076221 (JCMM).
Konflikt zájmů: nebyl deklarován.
, et al.
,
,
, sv.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, roč.
(str.
–
)
. ,
,
, et al.
,
,
, svazek
(str.
–
)
,
.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, roč.
(str.
–
)
.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
,
.
,
,
, vol.
(str.
–
)
,
.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, roč.
(str.
–
)
,
.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, roč.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
, et al.
,
,
, vol.
(str.
–
)
.
,
,
, roč.
(str.
–
)
Autorské poznámky
Společný redaktor: Thomas Lengauer