XtalPred: un server web pentru predicția cristalizabilității proteinelor
Abstract
Summary: XtalPred este un server web pentru predicția cristalizabilității proteinelor. Predicția se face prin compararea mai multor caracteristici ale proteinei cu distribuțiile acestor caracteristici în TargetDB și combinarea rezultatelor într-o probabilitate generală de cristalizare. XtalPred oferă: (1) o comparație detaliată a caracteristicilor proteinei cu distribuția corespunzătoare din TargetDB; (2) un rezumat al caracteristicilor proteinei și al predicțiilor care indică problemele care sunt susceptibile de a fi întâlnite în timpul cristalizării proteinei; (3) predicția liganzilor; și (4) (opțional) liste (opționale) de omologi apropiați din genomuri microbiene complete care au o probabilitate mai mare de cristalizare.
Disponibilitate: Serverul web XtalPred este disponibil gratuit pentru utilizatorii academici pe http://ffas.burnham.org/XtalPred
Contact:[email protected]
1 INTRODUCERE
Rata mare de eșec în determinarea experimentală a structurilor proteice este încă una dintre cele mai mari provocări ale biologiei structurale. Datele de la centrele de genomică structurală (SG) arată că rata generală de succes într-o configurație de mare randament (HT) a fost de numai aproximativ 5% și, deși nu există statistici disponibile pentru laboratoarele obișnuite de biologie structurală, dovezile anecdotice sugerează că rata de eșec este, de asemenea, foarte mare. Instrumentele bioinformatice pot ajuta la recunoașterea proteinelor care au mai multe șanse de reușită și pot oferi sugestii de posibile modificări pentru toate celelalte. Selectarea țintelor cu cele mai mari șanse de reușită este deosebit de utilă pentru centrele de SG, care vizează mai degrabă familii de proteine decât proteine individuale.
Relația dintre caracteristicile proteinelor și capacitatea lor de cristalizare a fost investigată de mai multe grupuri (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Cu toate acestea, laboratoarele tradiționale raportează doar succese în determinarea structurii, ceea ce face ca analizele de data mining să fie aproape imposibile din cauza lipsei unor seturi de date echilibrate corespunzător, cu date pozitive și negative. Această situație s-a schimbat odată cu înființarea Inițiativei privind structura proteinelor (www.nigms.nih.gov/Initiatives/PSI), care cere centrelor sale membre să raporteze atât succesele, cât și eșecurile într-o bază de date centrală, TargetDB (Chen et al., 2004). Seturile de învățare extrase din TargetDB au permis realizarea unor analize mai avansate (Chandonia et al., 2006; Overton și Barton, 2006; Smialowski et al., 2006), pe care le extindem aici folosind date și informații provenite din activitatea Centrului Comun pentru Genomică Structurală (Joint Center for Structural Genomics – JCSG).
Am folosit metoda bazinului de opinii logaritmice (Genest et al., 1984) pentru a combina distribuțiile de probabilitate calculate pentru mai multe caracteristici individuale ale proteinelor într-un „scor de fezabilitate a cristalizării” (Slabinski et al., 2007), unde am demonstrat că metoda noastră poate îmbunătăți semnificativ rata generală de succes în determinarea structurii. Analiza depozitelor din PDB (Berman et al., 2000) a confirmat faptul că aceleași caracteristici ale proteinelor au, de asemenea, un impact substanțial asupra ratelor de succes în determinarea structurilor standard, non-HT, sugerând că „scorul de fezabilitate a cristalizării” ar prezenta, de asemenea, un interes semnificativ pentru o comunitate largă de biologie structurală. Începând cu 2006, algoritmul nostru a fost utilizat cu succes la JCSG pentru a selecta ținte optime de determinare a structurii din familii de proteine cu acoperire structurală inexistentă sau inadecvată.
Serverele XtalPred se bazează pe cunoștințele statistice despre cristalizarea proteinelor adunate de PSI în ultimii 7 ani și pune la dispoziția unei comunități largi de biologi structurali cunoștințele din determinarea structurii HT.
2 SERVER FEATURE SUMMARY
Analize de cristalizare: serverul web compară nouă caracteristici biochimice și biofizice ale proteinei analizate cu distribuțiile de probabilitate corespunzătoare din TargetDB. Se generează un grafic pentru fiecare caracteristică a proteinei, care arată distribuțiile eșecurilor și succeselor din seturile extrase din TargetDB; distribuțiile empirice interpolate ale probabilității de cristalizare; și pozițiile proteinei în aceste distribuții (Fig. 1).
Exemplu de ieșire XtalPred. Probabilitățile calculate din histogramele obținute pentru caracteristicile individuale ale proteinei (panoul din dreapta) sunt utilizate pentru a atribui proteina clasei de cristalizare corespunzătoare (colțul din stânga sus). Legăturile către listele de omologi găsiți în diferite baze de date se află în colțul din stânga jos.
Exemplu de ieșire XtalPred. Probabilitățile calculate din histogramele obținute pentru caracteristicile individuale ale proteinei (panoul din dreapta) sunt utilizate pentru a atribui proteina la clasa de cristalizare corespunzătoare (colțul superior stâng). Legăturile către listele de omologi găsiți în diferite baze de date se află în colțul din stânga jos.
Crystallization prediction: Predicția se face prin combinarea probabilităților individuale de cristalizare într-un singur scor de cristalizare. Pe baza acestui scor, proteina este atribuită uneia dintre cele cinci clase de cristalizare: optimă, suboptimă, medie, dificilă și foarte dificilă (Fig. 1).
Sumarul informațiilor despre proteină: serverul calculează și prezice caracteristicile proteinei care sunt legate de capacitatea de cristalizare a proteinei și le rezumă pe o singură pagină web. Caracteristicile proteinelor calculate includ: lungimea proteinei; masa moleculară; indicele gravy (Kyte și Doolittle, 1982); indicele de instabilitate (Guruprasad et al., 1990); coeficientul de extincție (Gill și von Hippel, 1989); punctul izoelectric (Creighton, 1984); conținutul de reziduuri Cys, Met, Trp, Tyr și Phe; și numărul mediu de inserții în aliniere în comparație cu omologii din baza de date non-redundantă (NR) a secvențelor de proteine. Caracteristicile prezise includ: structura secundară, regiuni dezordonate, regiuni de complexitate redusă, regiuni cu spirală spiralată, elice transmembranare și peptide de semnal. Sunt evidențiate caracteristicile care pot indica probleme în timpul procesului de cristalizare. În cazul predicțiilor realizate de un software extern (secțiunea 3), rezultatul brut este disponibil sub formă de fișiere text.
Omologii apropiați care au mai multe șanse de a cristaliza: Clasa de cristalizare precalculată pentru toate genomurile microbiene complete (în prezent 487 de genomuri; 1, 549, 504 proteine) este disponibilă pe server. Pentru fiecare proteină trimisă, serverul oferă o listă a omologilor săi cu informații despre clasa de cristalizabilitate a acestora. Lista conține, de asemenea, link-uri către informații detaliate despre fiecare omolog.
Predicerea pliurilor și a liganzilor: XtalPred furnizează alinierea secvenței proteinei de intrare cu toate proteinele omologe din PDB. Conține, de asemenea, o listă de liganzi co-cristalizați cu proteinele omologe și structura lor secundară.
Scalabilitate: serverul poate procesa până la 10 secvențe într-o singură trimitere. Trimiterile mai mari trebuie discutate cu un administrator al serverului web.
Homologs: serverul furnizează alinierea cu omologii care pot fi utilizați pentru a propune trunchieri.
3 DETALIILE SERVERULUI
Serverele XtalPred utilizează mai multe programe disponibile public pentru calcularea și predicția caracteristicilor proteinelor: PSI-BLAST pentru căutări de homologie; CD-HIT (Li și Godzik, 2006) pentru gruparea bazelor de date cu secvențe de proteine; COILS (Lupas et al., 1991) pentru predicția regiunilor cu spirală spiralată, TMHMM (Krogh et al., 2001) pentru predicția elicelor transmembranare; RPSP (Plewczynski et al., 2007) pentru predicția peptidelor semnal, SEG (Wootton, 1994) pentru calcularea regiunilor de complexitate redusă; PSIPRED (Jones, 1999) pentru predicția structurii secundare; și DISOPRED2 (Ward et al, 2004) pentru predicția regiunilor structural dezordonate.
CONFORTURI DE RECUNOAȘTERE
Această lucrare a fost susținută de granturile NIH Protein Structure Initiative U54 GM074898 (JCSG) și P20 GM076221 (JCMM).
Conflict de interese: niciunul declarat.
, et al.
,
, 2000
, vol. 28
(pg.
–
)
, et al.
,
,
, vol.
(pag. 2884
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pag. 356
–
)
, et al.
,
,
, vol. I, nr. 1. 20
(pg.
–
)
. , Proteins: Structure and Molecular Properties
,
, et al.
,
,
, vol.
(pag. 61
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol. I, nr. 1. 4
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg. 567
–
)
,
.
,
,
, vol.
(pag. 105
–
)
,
.
,
,
, vol.
(pag. 1658
–
)
, et al.
,
,
, vol.
(pag. 1162
–
)
, et al.
,
,
, vol. I, nr. 1. 59
(pg.
–
)
,
.
,
,
, vol.
(pag. 4005
–
)
, et al.
,
,
, vol.
(pag. 5493
–
)
, et al.
,
,
, Vol. 16
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
,
, vol. 18 (pag.
–
)
Note ale autorului
Redactor asociat: Thomas Lengauer