Articles

XtalPred: un server web pentru predicția cristalizabilității proteinelor

Abstract

Summary: XtalPred este un server web pentru predicția cristalizabilității proteinelor. Predicția se face prin compararea mai multor caracteristici ale proteinei cu distribuțiile acestor caracteristici în TargetDB și combinarea rezultatelor într-o probabilitate generală de cristalizare. XtalPred oferă: (1) o comparație detaliată a caracteristicilor proteinei cu distribuția corespunzătoare din TargetDB; (2) un rezumat al caracteristicilor proteinei și al predicțiilor care indică problemele care sunt susceptibile de a fi întâlnite în timpul cristalizării proteinei; (3) predicția liganzilor; și (4) (opțional) liste (opționale) de omologi apropiați din genomuri microbiene complete care au o probabilitate mai mare de cristalizare.

Disponibilitate: Serverul web XtalPred este disponibil gratuit pentru utilizatorii academici pe http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUCERE

Rata mare de eșec în determinarea experimentală a structurilor proteice este încă una dintre cele mai mari provocări ale biologiei structurale. Datele de la centrele de genomică structurală (SG) arată că rata generală de succes într-o configurație de mare randament (HT) a fost de numai aproximativ 5% și, deși nu există statistici disponibile pentru laboratoarele obișnuite de biologie structurală, dovezile anecdotice sugerează că rata de eșec este, de asemenea, foarte mare. Instrumentele bioinformatice pot ajuta la recunoașterea proteinelor care au mai multe șanse de reușită și pot oferi sugestii de posibile modificări pentru toate celelalte. Selectarea țintelor cu cele mai mari șanse de reușită este deosebit de utilă pentru centrele de SG, care vizează mai degrabă familii de proteine decât proteine individuale.

Relația dintre caracteristicile proteinelor și capacitatea lor de cristalizare a fost investigată de mai multe grupuri (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Cu toate acestea, laboratoarele tradiționale raportează doar succese în determinarea structurii, ceea ce face ca analizele de data mining să fie aproape imposibile din cauza lipsei unor seturi de date echilibrate corespunzător, cu date pozitive și negative. Această situație s-a schimbat odată cu înființarea Inițiativei privind structura proteinelor (www.nigms.nih.gov/Initiatives/PSI), care cere centrelor sale membre să raporteze atât succesele, cât și eșecurile într-o bază de date centrală, TargetDB (Chen et al., 2004). Seturile de învățare extrase din TargetDB au permis realizarea unor analize mai avansate (Chandonia et al., 2006; Overton și Barton, 2006; Smialowski et al., 2006), pe care le extindem aici folosind date și informații provenite din activitatea Centrului Comun pentru Genomică Structurală (Joint Center for Structural Genomics – JCSG).

Am folosit metoda bazinului de opinii logaritmice (Genest et al., 1984) pentru a combina distribuțiile de probabilitate calculate pentru mai multe caracteristici individuale ale proteinelor într-un „scor de fezabilitate a cristalizării” (Slabinski et al., 2007), unde am demonstrat că metoda noastră poate îmbunătăți semnificativ rata generală de succes în determinarea structurii. Analiza depozitelor din PDB (Berman et al., 2000) a confirmat faptul că aceleași caracteristici ale proteinelor au, de asemenea, un impact substanțial asupra ratelor de succes în determinarea structurilor standard, non-HT, sugerând că „scorul de fezabilitate a cristalizării” ar prezenta, de asemenea, un interes semnificativ pentru o comunitate largă de biologie structurală. Începând cu 2006, algoritmul nostru a fost utilizat cu succes la JCSG pentru a selecta ținte optime de determinare a structurii din familii de proteine cu acoperire structurală inexistentă sau inadecvată.

Serverele XtalPred se bazează pe cunoștințele statistice despre cristalizarea proteinelor adunate de PSI în ultimii 7 ani și pune la dispoziția unei comunități largi de biologi structurali cunoștințele din determinarea structurii HT.

2 SERVER FEATURE SUMMARY

Analize de cristalizare: serverul web compară nouă caracteristici biochimice și biofizice ale proteinei analizate cu distribuțiile de probabilitate corespunzătoare din TargetDB. Se generează un grafic pentru fiecare caracteristică a proteinei, care arată distribuțiile eșecurilor și succeselor din seturile extrase din TargetDB; distribuțiile empirice interpolate ale probabilității de cristalizare; și pozițiile proteinei în aceste distribuții (Fig. 1).

Fig. 1.

Exemplu de ieșire XtalPred. Probabilitățile calculate din histogramele obținute pentru caracteristicile individuale ale proteinei (panoul din dreapta) sunt utilizate pentru a atribui proteina clasei de cristalizare corespunzătoare (colțul din stânga sus). Legăturile către listele de omologi găsiți în diferite baze de date se află în colțul din stânga jos.

Fig. 1.

Exemplu de ieșire XtalPred. Probabilitățile calculate din histogramele obținute pentru caracteristicile individuale ale proteinei (panoul din dreapta) sunt utilizate pentru a atribui proteina la clasa de cristalizare corespunzătoare (colțul superior stâng). Legăturile către listele de omologi găsiți în diferite baze de date se află în colțul din stânga jos.

Crystallization prediction: Predicția se face prin combinarea probabilităților individuale de cristalizare într-un singur scor de cristalizare. Pe baza acestui scor, proteina este atribuită uneia dintre cele cinci clase de cristalizare: optimă, suboptimă, medie, dificilă și foarte dificilă (Fig. 1).

Sumarul informațiilor despre proteină: serverul calculează și prezice caracteristicile proteinei care sunt legate de capacitatea de cristalizare a proteinei și le rezumă pe o singură pagină web. Caracteristicile proteinelor calculate includ: lungimea proteinei; masa moleculară; indicele gravy (Kyte și Doolittle, 1982); indicele de instabilitate (Guruprasad et al., 1990); coeficientul de extincție (Gill și von Hippel, 1989); punctul izoelectric (Creighton, 1984); conținutul de reziduuri Cys, Met, Trp, Tyr și Phe; și numărul mediu de inserții în aliniere în comparație cu omologii din baza de date non-redundantă (NR) a secvențelor de proteine. Caracteristicile prezise includ: structura secundară, regiuni dezordonate, regiuni de complexitate redusă, regiuni cu spirală spiralată, elice transmembranare și peptide de semnal. Sunt evidențiate caracteristicile care pot indica probleme în timpul procesului de cristalizare. În cazul predicțiilor realizate de un software extern (secțiunea 3), rezultatul brut este disponibil sub formă de fișiere text.

Omologii apropiați care au mai multe șanse de a cristaliza: Clasa de cristalizare precalculată pentru toate genomurile microbiene complete (în prezent 487 de genomuri; 1, 549, 504 proteine) este disponibilă pe server. Pentru fiecare proteină trimisă, serverul oferă o listă a omologilor săi cu informații despre clasa de cristalizabilitate a acestora. Lista conține, de asemenea, link-uri către informații detaliate despre fiecare omolog.

Predicerea pliurilor și a liganzilor: XtalPred furnizează alinierea secvenței proteinei de intrare cu toate proteinele omologe din PDB. Conține, de asemenea, o listă de liganzi co-cristalizați cu proteinele omologe și structura lor secundară.

Scalabilitate: serverul poate procesa până la 10 secvențe într-o singură trimitere. Trimiterile mai mari trebuie discutate cu un administrator al serverului web.

Homologs: serverul furnizează alinierea cu omologii care pot fi utilizați pentru a propune trunchieri.

3 DETALIILE SERVERULUI

Serverele XtalPred utilizează mai multe programe disponibile public pentru calcularea și predicția caracteristicilor proteinelor: PSI-BLAST pentru căutări de homologie; CD-HIT (Li și Godzik, 2006) pentru gruparea bazelor de date cu secvențe de proteine; COILS (Lupas et al., 1991) pentru predicția regiunilor cu spirală spiralată, TMHMM (Krogh et al., 2001) pentru predicția elicelor transmembranare; RPSP (Plewczynski et al., 2007) pentru predicția peptidelor semnal, SEG (Wootton, 1994) pentru calcularea regiunilor de complexitate redusă; PSIPRED (Jones, 1999) pentru predicția structurii secundare; și DISOPRED2 (Ward et al, 2004) pentru predicția regiunilor structural dezordonate.

CONFORTURI DE RECUNOAȘTERE

Această lucrare a fost susținută de granturile NIH Protein Structure Initiative U54 GM074898 (JCSG) și P20 GM076221 (JCMM).

Conflict de interese: niciunul declarat.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

, 2000

, vol. 28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pag. 2884

2898

)

Canaves
JM

, et al.

Proprietăți biofizice ale proteinelor care se corelează cu succesul cristalizării în Thermotoga maritima: strategie de grupare maximă pentru genomica structurală

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pag. 356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, Anglia )

,

2004

, vol. I, nr. 1. 20

(pg.

2860

2862

)

Creighton
TE

. , Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Agregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pag. 61

70

)

Gill
SC

,

Von Hippel
PH

.

Calcularea coeficienților de extincție a proteinelor din datele secvenței de aminoacizi

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Corelația dintre stabilitatea unei proteine și compoziția sa dipeptidică: o nouă abordare pentru prezicerea stabilității in vivo a unei proteine pornind de la secvența sa primară

,

Protein Eng

,

1990

, vol. I, nr. 1. 4

(pg.

155

161

)

Jones
DT

.

Predicția structurii secundare a proteinelor pe baza matricelor de scoruri specifice poziției

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg. 567

580

)

Kyte
J

,

Doolittle
RF

.

O metodă simplă de afișare a caracterului hidropatologic al unei proteine

,

J. Mol. Biol

,

1982

, vol.

157

(pag. 105

132

)

Li
W

,

Godzik
A

.

Cd-hit: un program rapid pentru gruparea și compararea unor seturi mari de secvențe de proteine sau nucleotide

,

Bioinformatics (Oxford, Anglia )

,

2006

, vol.

22

(pag. 1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pag. 1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol. I, nr. 1. 59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pag. 4005

4009

)

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pag. 5493

5496

)

Slabinski
L

, et al.

The challenge of protein structure determination – lessons from structural genomics

,

Protein Sci

,

2007

, Vol. 16

(pg.

2472

2482

)

Smialowski
P

, et al.

Se va cristaliza proteina mea? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

,

1994

, vol. 18 (pag.

269

285

)

Note ale autorului

Redactor asociat: Thomas Lengauer