Articles

XtalPred: egy webszerver a fehérjék kristályosíthatóságának előrejelzésére

Abstract

Summary: XtalPred is a web server for prediction of protein crystallizability. Az előrejelzés úgy történik, hogy a fehérje több jellemzőjét összehasonlítjuk a TargetDB-ben található e jellemzők eloszlásával, és az eredményeket kombinálva meghatározzuk a kristályosodás teljes valószínűségét. Az XtalPred biztosítja: (1) a fehérje jellemzőinek részletes összehasonlítását a TargetDB megfelelő eloszlásával; (2) a fehérje jellemzőinek és előrejelzéseinek összefoglalóját, amely jelzi a fehérje kristályosítása során valószínűleg felmerülő problémákat; (3) a ligandumok előrejelzését; és (4) (opcionális) a teljes mikrobiális genomból származó közeli homológok listáját, amelyek nagyobb valószínűséggel kristályosíthatók.

Készenlét: Az XtalPred webszerver szabadon elérhető tudományos felhasználók számára a http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 BEVEZETÉS

A fehérjeszerkezetek kísérleti meghatározásának magas hibaaránya még mindig a strukturális biológia egyik legnagyobb kihívása. A strukturális genomikai (SG) központok adatai azt mutatják, hogy a nagy áteresztőképességű (HT) beállításokban az általános sikerességi arány mindössze 5% körül van, és bár a szokásos strukturális biológiai laboratóriumokról nem állnak rendelkezésre statisztikák, az anekdotikus bizonyítékok azt sugallják, hogy a kudarcok aránya szintén nagyon magas. A bioinformatikai eszközök segíthetnek annak felismerésében, hogy mely fehérjéknek van nagyobb esélyük a sikerre, a többiek számára pedig javaslatokat tehetnek a lehetséges módosításokra. A legnagyobb esélyű célpontok kiválasztása különösen hasznos az SG-központok számára, amelyek inkább fehérjecsaládokat céloznak meg, mint egyes fehérjéket.

A fehérjék tulajdonságai és kristályosíthatóságuk közötti kapcsolatot több csoport is vizsgálta (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). A hagyományos laboratóriumok azonban csak a szerkezetmeghatározás sikereiről számolnak be, ami a pozitív és negatív adatokat tartalmazó, megfelelően kiegyensúlyozott adatsorok hiánya miatt szinte lehetetlenné teszi az adatbányászati elemzéseket. Ez a helyzet megváltozott a Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI) létrehozásával, amely megköveteli a tagközpontoktól, hogy a sikereket és a kudarcokat egyaránt jelentse egy központi adatbázisba, a TargetDB-be (Chen et al., 2004). A TargetDB-ből kinyert tanulási halmazok lehetővé tették a fejlettebb elemzéseket (Chandonia et al., 2006; Overton és Barton, 2006; Smialowski et al., 2006), amelyeket itt kibővítünk a Joint Center for Structural Genomics (JCSG) munkájából származó adatok és meglátások felhasználásával.

A logaritmikus véleménygyűjtési módszert (Genest et al., 1984), hogy a több egyedi fehérjejellemzőre számított valószínűségi eloszlásokat egy “kristályosítási megvalósíthatósági pontszámban” (Slabinski et al., 2007) egyesítsük, ahol bebizonyítottuk, hogy módszerünk jelentősen javíthatja a szerkezetmeghatározás általános sikerességi arányát. A PDB-ben lévő letétek elemzése (Berman et al., 2000) megerősítette, hogy ugyanazok a fehérjejellemzők a standard, nem-HT szerkezetmeghatározás sikerességi arányára is jelentős hatással vannak, ami arra utal, hogy a “kristályosítási megvalósíthatósági pontszám” a széles szerkezetbiológiai közösség számára is jelentős érdeklődésre tarthat számot. Algoritmusunkat 2006 óta sikeresen használják a JCSG-ben az optimális szerkezetmeghatározási célpontok kiválasztására olyan fehérjecsaládok közül, amelyeknek nincs vagy nem megfelelő a szerkezeti lefedettsége.

Az XtalPred szerver a PSI által az elmúlt 7 év során a fehérjekristályosításról összegyűjtött statisztikai ismeretekre épül, és a HT szerkezetmeghatározásból származó meglátásokat a szerkezetbiológusok széles közössége számára teszi elérhetővé.

2 SZERVER JELLEMZŐK ÖSSZEFOGLALÓJA

Kristályosítási elemzések: a webszerver összehasonlítja az elemzett fehérje kilenc biokémiai és biofizikai jellemzőjét a TargetDB-ből származó megfelelő valószínűségi eloszlásokkal. Minden egyes fehérjejellemzőhöz grafikon készül, amely mutatja a TargetDB-ből kinyert halmazok sikertelenségi és sikertelenségi eloszlásait; a kristályosodás valószínűségének interpolált empirikus eloszlásait; és a fehérje helyét ezekben az eloszlásokban (1. ábra).

1. ábra.

Példa az XtalPred kimenetére. Az egyes fehérjejellemzőkhöz kapott hisztogramokból számított valószínűségek (jobb oldali panel) alapján a fehérjét a megfelelő kristályosodási osztályba soroljuk (bal felső sarok). A bal alsó sarokban a különböző adatbázisokban található homológok listáira mutató linkek találhatók.

1. ábra.

Példa az XtalPred kimenetére. Az egyes fehérjejellemzőkhöz kapott hisztogramokból számított valószínűségek (jobb oldali panel) segítségével a fehérjét a megfelelő kristályosodási osztályba soroljuk (bal felső sarok). A bal alsó sarokban a különböző adatbázisokban található homológok listáira mutató linkek találhatók.

Kristályosodási előrejelzés: A predikciót az egyes kristályosodási valószínűségek egyetlen kristályosodási pontszámba történő kombinálásával végezzük. E pontszám alapján a fehérjét az öt kristályosodási osztály egyikébe sorolják: optimális, szuboptimális, átlagos, nehéz és nagyon nehéz (1. ábra).

A fehérjéről szóló információk összefoglalása: a szerver kiszámítja és előrejelzi a fehérje kristályosíthatóságával kapcsolatos fehérjejellemzőket, és egy weboldalon összefoglalja azokat. A kiszámított fehérjejellemzők a következők: fehérje hossza; molekulatömeg; gravy index (Kyte és Doolittle, 1982); instabilitási index (Guruprasad et al., 1990); extinkciós együttható (Gill és von Hippel, 1989); izoelektromos pont (Creighton, 1984); Cys, Met, Trp, Tyr és Phe maradékok tartalma; és az illesztések átlagos száma a fehérjeszekvenciák nem redundáns (NR) adatbázisában található homológokhoz képest. A megjósolt jellemzők közé tartoznak: másodlagos szerkezet, rendezetlen régiók, alacsony komplexitású régiók, tekercses-tekercses régiók, transzmembrán hélixek és szignálpeptidek. Kiemelésre kerülnek azok a jellemzők, amelyek a kristályosítási folyamat során felmerülő problémákra utalhatnak. A külső szoftverrel készített predikciók (3. szakasz) esetén a nyers kimenet szöveges fájlként elérhető.

Közelebbi homológok, amelyek nagyobb valószínűséggel kristályosodnak: a szerverről elérhető az összes teljes mikrobiális genom (jelenleg 487 genom; 1, 549, 504 fehérje) előreszámított kristályosodási osztálya. A szerver minden egyes beküldött fehérjéhez a homológjainak listáját adja meg a kristályosodási osztályukról szóló információval együtt. A lista az egyes homológokra vonatkozó részletes információkhoz vezető linkeket is tartalmaz.

Fold és ligand predikció: Az XtalPred biztosítja a bemeneti fehérje szekvenciaillesztését a PDB-ben található összes homológ fehérjével. Tartalmazza továbbá a homológ fehérjékkel együtt kristályosított ligandumok listáját és azok másodlagos szerkezetét.

Skálázhatóság: A szerver egyetlen beküldéssel akár 10 szekvenciát is képes feldolgozni. Nagyobb beadványokat a webszerver adminisztrátorával kell megbeszélni.

Homológok: a szerver biztosítja a homológokkal való összehangolást, amely felhasználható a csonkolási javaslatokhoz.

3 SZERVER DETAILS

Az XtalPred szerver több nyilvánosan elérhető programot használ a fehérjék jellemzőinek kiszámításához és előrejelzéséhez: PSI-BLAST a homológiakereséshez; CD-HIT (Li és Godzik, 2006) a fehérje szekvencia adatbázisok klaszterezéséhez; COILS (Lupas et al., 1991) a tekercselt tekercs régiók előrejelzéséhez, TMHMM (Krogh et al., 2001) a transzmembrán hélixek előrejelzésére, RPSP (Plewczynski et al., 2007) a szignálpeptidek előrejelzésére, SEG (Wootton, 1994) az alacsony komplexitású régiók kiszámítására, PSIPRED (Jones, 1999) a másodlagos szerkezet előrejelzésére, és DISOPRED2 (Ward et al., 2004) a szerkezetileg rendezetlen régiók előrejelzéséhez.

FELHÍVÁSOK

Ezt a munkát az NIH Protein Structure Initiative U54 GM074898 (JCSG) és P20 GM076221 (JCMM) ösztöndíjai támogatták.

Érdekütközési konfliktus: nincs bejelentett.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Protein biofizikai tulajdonságok, amelyek korrelálnak a kristályosítás sikerével Thermotoga maritima-ban: maximális klaszterezési stratégia a strukturális genomikában

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

A fehérjék kihalási együtthatóinak számítása aminosav szekvencia adatokból

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that influence high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Protein secondary structure prediction based on position-specific scoring matrices

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Egyszerű módszer egy fehérje hidropatikus jellegének kimutatására

,

J,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and compararing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalized scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

The challenge of protein structure determination – lessons from structural genomics

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

Autori jegyzetek

Társszerkesztő: Thomas Lengauer