Articles

XtalPred: en webbserver för prediktion av proteinkristalliserbarhet

Abstract

Sammanfattning: XtalPred är en webbserver för prediktion av proteinkristalliserbarhet. Förutsägelsen görs genom att jämföra flera egenskaper hos proteinet med fördelningar av dessa egenskaper i TargetDB och kombinera resultaten till en övergripande sannolikhet för kristallisering. XtalPred tillhandahåller: (1) en detaljerad jämförelse av proteinets egenskaper med motsvarande fördelning från TargetDB; (2) en sammanfattning av proteinegenskaper och förutsägelser som visar på problem som sannolikt kommer att uppstå under proteinkristalliseringen; (3) förutsägelser av ligander; och (4) (valfritt) listor över nära homologer från kompletta mikrobiella genomer som har större sannolikhet att kristallisera.

Tillgänglighet: XtalPred-webbservern är fritt tillgänglig för akademiska användare på http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INLEDNING

Den höga felprocenten vid experimentell bestämning av proteinstrukturer är fortfarande en av de största utmaningarna inom strukturbiologin. Uppgifter från centra för strukturell genomik (SG) visar att den totala framgångsfrekvensen i en höggenomströmningsuppställning (HT) endast har varit omkring 5 %, och även om det inte finns någon statistik tillgänglig för vanliga strukturbiologiska laboratorier, tyder anekdotiska bevis på att misslyckandefrekvensen också är mycket hög. Bioinformatiska verktyg kan hjälpa till att identifiera vilka proteiner som har störst sannolikhet att lyckas och ge förslag på möjliga ändringar för alla andra. Urval av mål med störst chans att lyckas är särskilt användbart för SG-centra, som riktar in sig på proteinfamiljer snarare än enskilda proteiner.

Relationen mellan proteiners egenskaper och deras kristalliserbarhet har undersökts av flera grupper (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Traditionella laboratorier rapporterar dock endast framgångar i strukturbestämningen, vilket gör datautvinningsanalyser nästan omöjliga på grund av bristen på lämpligt balanserade datamängder med positiva och negativa uppgifter. Denna situation förändrades i och med inrättandet av Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), som kräver att dess medlemscentra rapporterar både framgångar och misslyckanden till en central databas, TargetDB (Chen et al., 2004). Inlärningsuppsättningar som extraherats från TargetDB har möjliggjort mer avancerade analyser (Chandonia et al., 2006; Overton och Barton, 2006; Smialowski et al., 2006), som vi utökar här med hjälp av data och insikter som härstammar från arbetet inom Joint Center for Structural Genomics (JCSG).

Vi har använt oss av den logaritmiska opinionspoolmetoden (Genest et al, 1984) för att kombinera de sannolikhetsfördelningar som beräknats för flera enskilda proteinegenskaper till en ”crystallization feasibility score” (Slabinski et al., 2007), där vi visat att vår metod avsevärt kan förbättra den totala framgångsfrekvensen vid strukturbestämning. Analyser av deponeringar i PDB (Berman et al., 2000) har bekräftat att samma proteinegenskaper också har en betydande inverkan på framgångskvoten vid standardiserad strukturbestämning som inte är av typen HT, vilket tyder på att ”kristalliseringsbarhetsresultatet” också skulle vara av stort intresse för ett brett strukturbiologiskt samfund. Sedan 2006 har vår algoritm använts framgångsrikt vid JCSG för att välja optimala mål för strukturbestämning från proteinfamiljer med ingen eller otillräcklig strukturell täckning.

Serveren XtalPred bygger på den statistiska kunskap om proteinkristallisering som PSI samlat in under de senaste sju åren och gör insikterna från HT-strukturbestämningen tillgängliga för en bred gemenskap av strukturbiologer.

2 SERVER FUNKTIONSOMRÅDE

Kristallisationsanalyser: Webbservern jämför nio biokemiska och biofysiska egenskaper hos det protein som analyseras med motsvarande sannolikhetsfördelningar från TargetDB. För varje proteinegenskap genereras en graf som visar fördelningarna av misslyckanden och framgångar i de uppsättningar som extraherats från TargetDB, interpolerade empiriska fördelningar av kristalliseringssannolikheten och proteinets positioner i dessa fördelningar (fig. 1).

Fig. 1.

Exempel på XtalPred-utdata. Sannolikheterna som beräknas från histogram som erhålls för enskilda proteinegenskaper (högra panelen) används för att tilldela proteinet till lämplig kristalliseringsklass (det övre vänstra hörnet). Länkar till listor över homologer som finns i olika databaser finns i det vänstra nedre hörnet.

Fig. 1.

Exempel på XtalPred-utdata. Sannolikheterna som beräknas från histogram som erhålls för enskilda proteinegenskaper (högra panelen) används för att tilldela proteinet till lämplig kristalliseringsklass (det övre vänstra hörnet). Länkar till listor över homologer som finns i olika databaser finns i det vänstra nedre hörnet.

Kristalliseringsprediktion: Prediktionen görs genom att kombinera enskilda kristalliseringssannolikheter till ett enda kristalliseringsresultat. Baserat på denna poäng tilldelas proteinet en av fem kristalliseringsklasser: optimal, suboptimal, genomsnittlig, svår och mycket svår (fig. 1).

Sammanfattning av information om proteinet: servern beräknar och förutspår proteinegenskaper som är relaterade till proteinets kristalliseringsbarhet och sammanfattar dem på en webbsida. Beräknade proteinegenskaper är bland annat: proteinlängd, molekylmassa, gravy-index (Kyte och Doolittle, 1982), instabilitetsindex (Guruprasad et al., 1990), extinktionskoefficient (Gill och von Hippel, 1989), isoelektrisk punkt (Creighton, 1984), innehåll av Cys-, Met-, Trp-, Tyr- och Phe-rester och genomsnittligt antal inlagringar i anpassningen jämfört med homologer i den icke-redundanta (NR) databasen av proteinsekvenser. De förutspådda egenskaperna omfattar: sekundärstruktur, oordnade regioner, regioner med låg komplexitet, spolade spiralregioner, transmembranhelixer och signalpeptider. De egenskaper som kan tyda på problem under kristalliseringsprocessen lyfts fram. När det gäller förutsägelser gjorda av extern programvara (avsnitt 3) finns den obearbetade produktionen tillgänglig som textfiler.

Nära homologer som har större sannolikhet att kristallisera: Förberäknad kristalliseringsklass för alla kompletta mikrobiella genomer (för närvarande 487 genomer; 1, 549, 504 proteiner) finns tillgängliga från servern. För varje inlämnat protein tillhandahåller servern en lista över dess homologer med information om deras kristalliseringsklass. Listan innehåller också länkar till detaljerad information om varje homolog.

Fold- och ligandförutsägelse: XtalPred tillhandahåller sekvensanpassning av det ingående proteinet med alla homologa proteiner i PDB. Den innehåller också en lista över ligander som samkristalliserats med homologa proteiner och deras sekundärstruktur.

Skalering: Servern kan bearbeta upp till 10 sekvenser i en enda inlämning. Större inlämningar bör diskuteras med en webbserveradministratör.

Homologer: servern tillhandahåller anpassningen med homologer som kan användas för att föreslå trunkeringar.

3 SERVERDETALJER

XtalPred-servern använder flera allmänt tillgängliga program för beräkning och förutsägelse av proteinegenskaper: PSI-BLAST för homologisökningar, CD-HIT (Li och Godzik, 2006) för kluster av proteinsekvensdatabaser, COILS (Lupas et al., 1991) för förutsägelse av coiledcoil-regioner, TMHMM (Krogh et al., 1991) för beräkning och beräkning av proteinkomponenter, 2001) för förutsägelse av transmembranhelixer, RPSP (Plewczynski et al., 2007) för förutsägelse av signalpeptider, SEG (Wootton, 1994) för beräkning av lågkomplexa regioner, PSIPRED (Jones, 1999) för förutsägelse av sekundärstruktur och DISOPRED2 (Ward et al, 2004) för förutsägelse av strukturellt oordnade regioner.

REDOVISNINGAR

Detta arbete stöddes av NIH Protein Structure Initiative grants U54 GM074898 (JCSG) och P20 GM076221 (JCMM).

Intressekonflikter: inga deklarerade.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Biofysiska proteinegenskaper som korrelerar med kristalliseringsframgång i Thermotoga maritima: maximal klusterstrategi för strukturell genomik

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregering av åsikter genom logaritmisk sammanslagning

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Beräkning av proteinutsträckningskoefficienter från aminosyrasekvensdata

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Korrelation mellan stabiliteten hos ett protein och dess dipeptidkomposition: ett nytt tillvägagångssätt för att förutsäga stabiliteten in vivo hos ett protein utifrån dess primära sekvens

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Protein secondary structure prediction based on position-specific scoring matrices

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

En enkel metod för att visa den hydropatiska karaktären hos ett protein

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

The challenge of protein structure determination – lessons from structural genomics

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Kommer mitt protein att kristallisera? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prediktion och funktionell analys av nativ oordning i proteiner från livets tre riken

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globulära domäner i proteinsekvenser: automatiserad segmentering med hjälp av komplexitetsmått

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

Författningsanteckningar

Associate Editor: Thomas Lengauer