Articles

XtalPred: un server web per la previsione della cristallizzabilità delle proteine

Abstract

Sommario: XtalPred è un server web per la previsione della cristallizzabilità delle proteine. La previsione è fatta confrontando diverse caratteristiche della proteina con le distribuzioni di queste caratteristiche in TargetDB e combinando i risultati in una probabilità complessiva di cristallizzazione. XtalPred fornisce: (1) un confronto dettagliato delle caratteristiche della proteina con la corrispondente distribuzione da TargetDB; (2) un riassunto delle caratteristiche della proteina e delle predizioni che indicano i problemi che probabilmente si incontreranno durante la cristallizzazione della proteina; (3) la predizione dei ligandi; e (4) (opzionale) liste di omologhi vicini da genomi microbici completi che hanno più probabilità di cristallizzare.

Disponibilità: Il server web XtalPred è disponibile gratuitamente per gli utenti accademici su http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUZIONE

L’alto tasso di fallimento nella determinazione sperimentale delle strutture proteiche è ancora una delle maggiori sfide della biologia strutturale. I dati dei centri di genomica strutturale (SG) mostrano che il tasso di successo complessivo in un setup ad alta produttività (HT) è stato solo del 5% circa e, mentre non sono disponibili statistiche per i normali laboratori di biologia strutturale, l’evidenza aneddotica suggerisce che anche il tasso di fallimento è molto alto. Gli strumenti bioinformatici possono aiutare a riconoscere quali proteine hanno maggiori probabilità di successo e fornire suggerimenti di possibili modifiche per tutte le altre. La selezione degli obiettivi con la più alta probabilità di successo è particolarmente utile per i centri SG, che mirano a famiglie di proteine piuttosto che a singole proteine.

La relazione tra le caratteristiche delle proteine e la loro cristallizzabilità è stata studiata da diversi gruppi (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Tuttavia, i laboratori tradizionali riportano solo successi nella determinazione della struttura, rendendo le analisi di data mining quasi impossibili a causa della mancanza di set di dati adeguatamente bilanciati con dati positivi e negativi. Questa situazione è cambiata con l’istituzione della Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), che richiede ai suoi centri membri di riportare sia i successi che i fallimenti in un database centrale, TargetDB (Chen et al., 2004). I set di apprendimento estratti da TargetDB hanno permesso analisi più avanzate (Chandonia et al., 2006; Overton e Barton, 2006; Smialowski et al., 2006), che qui espandiamo usando dati e intuizioni derivanti dal lavoro nel Joint Center for Structural Genomics (JCSG).

Abbiamo usato il metodo del pool di opinioni logaritmico (Genest et al, 1984) per combinare le distribuzioni di probabilità calcolate per diverse caratteristiche proteiche individuali in un “punteggio di fattibilità di cristallizzazione” (Slabinski et al., 2007), dove abbiamo dimostrato che il nostro metodo può migliorare significativamente il tasso di successo complessivo nella determinazione della struttura. L’analisi dei depositi nel PDB (Berman et al., 2000) ha confermato che le stesse caratteristiche proteiche hanno anche un impatto sostanziale sui tassi di successo nella determinazione della struttura standard, non-HT, suggerendo che il “punteggio di fattibilità della cristallizzazione” sarebbe anche di significativo interesse per una vasta comunità di biologia strutturale. Dal 2006, il nostro algoritmo è stato usato con successo al JCSG per selezionare obiettivi ottimali di determinazione della struttura da famiglie di proteine con copertura strutturale inadeguata o assente.

Il server XtalPred si basa sulla conoscenza statistica della cristallizzazione delle proteine raccolta dal PSI negli ultimi 7 anni e rende le intuizioni della determinazione della struttura HT disponibili per una vasta comunità di biologi strutturali.

2 SINTESI DELLE CARATTERISTICHE DEL SERVER

Analisi della cristallizzazione: il server web confronta nove caratteristiche biochimiche e biofisiche della proteina analizzata con le corrispondenti distribuzioni di probabilità di TargetDB. Un grafico viene generato per ogni caratteristica della proteina, mostrando le distribuzioni dei fallimenti e dei successi nei set estratti da TargetDB; le distribuzioni empiriche interpolate della probabilità di cristallizzazione; e le posizioni della proteina in quelle distribuzioni (Fig. 1).

Fig. 1.

Esempio di output di XtalPred. Le probabilità calcolate dagli istogrammi ottenuti per le singole caratteristiche della proteina (pannello destro) sono usate per assegnare la proteina alla classe di cristallizzazione appropriata (angolo superiore sinistro). I link alle liste di omologhi trovati in diversi database si trovano nell’angolo in basso a sinistra.

Fig. 1.

Esempio di output di XtalPred. Le probabilità calcolate dagli istogrammi ottenuti per le singole caratteristiche della proteina (pannello destro) sono usate per assegnare la proteina alla classe di cristallizzazione appropriata (angolo superiore sinistro). I link alle liste di omologhi trovati in diversi database si trovano nell’angolo in basso a sinistra.

Previsione di cristallizzazione: la predizione è fatta combinando le probabilità di cristallizzazione individuali in un singolo punteggio di cristallizzazione. In base a questo punteggio, la proteina viene assegnata a una delle cinque classi di cristallizzazione: ottimale, subottimale, media, difficile e molto difficile (Fig. 1).

Sommario delle informazioni sulla proteina: il server calcola e predice le caratteristiche della proteina che sono collegate alla cristallizzabilità della proteina e le riassume in una pagina web. Le caratteristiche proteiche calcolate includono: lunghezza della proteina; massa molecolare; indice di sugo (Kyte e Doolittle, 1982); indice di instabilità (Guruprasad et al., 1990); coefficiente di estinzione (Gill e von Hippel, 1989); punto isoelettrico (Creighton, 1984); contenuto di residui Cys, Met, Trp, Tyr, e Phe; e numero medio di inserzioni nell’allineamento rispetto agli omologhi nel database non ridondante (NR) delle sequenze proteiche. Le caratteristiche previste includono: struttura secondaria, regioni disordinate, regioni a bassa complessità, regioni a spirale, eliche transmembrana e peptidi di segnale. Le caratteristiche che possono indicare problemi durante il processo di cristallizzazione sono evidenziate. Nel caso di previsioni fatte da software esterni (Sezione 3), l’output grezzo è disponibile come file di testo.

Chiude gli omologhi che hanno più probabilità di cristallizzare: la classe di cristallizzazione precalcolata per tutti i genomi microbici completi (attualmente 487 genomi; 1, 549, 504 proteine) è disponibile dal server. Per ogni proteina presentata, il server fornisce una lista dei suoi omologhi con le informazioni sulla loro classe di cristallizzazione. L’elenco contiene anche collegamenti a informazioni dettagliate su ogni omologo.

Previsione della piega e del ligando: XtalPred fornisce l’allineamento di sequenza della proteina di input con tutte le proteine omologhe nel PDB. Contiene anche una lista di ligandi co-cristallizzati con proteine omologhe e la loro struttura secondaria.

Scalabilità: il server può elaborare fino a 10 sequenze in un singolo invio. Invii più grandi dovrebbero essere discussi con un amministratore del server web.

Omologhi: il server fornisce l’allineamento con gli omologhi che possono essere usati per proporre troncamenti.

3 DETTAGLI DEL SERVER

Il server XtalPred usa diversi programmi pubblicamente disponibili per il calcolo e la predizione delle caratteristiche delle proteine: PSI-BLAST per le ricerche di omologia; CD-HIT (Li e Godzik, 2006) per il clustering dei database di sequenze proteiche; COILS (Lupas et al., 1991) per la predizione delle regioni a spirale, TMHMM (Krogh et al, 2001) per la predizione delle eliche transmembrana; RPSP (Plewczynski et al., 2007) per la predizione dei peptidi di segnale, SEG (Wootton, 1994) per il calcolo delle regioni a bassa complessità; PSIPRED (Jones, 1999) per la predizione della struttura secondaria; e DISOPRED2 (Ward et al, 2004) per la predizione di regioni strutturalmente disordinate.

CONOSCENZE

Questo lavoro è stato sostenuto dalle sovvenzioni NIH Protein Structure Initiative U54 GM074898 (JCSG) e P20 GM076221 (JCMM).

Conflitto di interessi: nessuno dichiarato.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: un database di tracciamento integrato e un approccio di data mining per l’identificazione di obiettivi fattibili nella proteomica strutturale ad alto rendimento

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Proprietà biofisiche delle proteine che correlano con il successo della cristallizzazione in Thermotoga maritima: strategia di clustering massimo per la genomica strutturale

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Selezione e deselezione dei target al Berkeley Structural Genomics Center

,

Proteine

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: un database di registrazione dei target per progetti di genomica strutturale

,

Bioinformatica (Oxford, Inghilterra )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregare le opinioni attraverso il pooling logaritmico

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Calcolo dei coefficienti di estinzione delle proteine dai dati di sequenza degli amminoacidi

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identificazione delle proprietà delle proteine che influenzano l’analisi sperimentale high-throughput

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlazione tra la stabilità di una proteina e la sua composizione dipeptidica: un nuovo approccio per predire la stabilità in vivo di una proteina dalla sua sequenza primaria

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Previsione della struttura secondaria della proteina basata su matrici di punteggio specifiche della posizione

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicendo la topologia della proteina transmembrana con un modello di Markov nascosto: applicazione ai genomi completi

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Un metodo semplice per visualizzare il carattere idropatico di una proteina

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: un programma veloce per raggruppare e confrontare grandi insiemi di sequenze proteiche o nucleotidiche

,

Bioinformatica (Oxford, Inghilterra )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicendo bobine da sequenze di proteine

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Per affrontare il collo di bottiglia del disordine intrinseco nella proteomica strutturale

,

Proteine

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

Una scala normalizzata per la classificazione dei target della genomica strutturale: l’OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

Il RPSP: Web server per la predizione di peptidi di segnale

,

Polimero

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

La sfida della determinazione della struttura delle proteine – lezioni dalla genomica strutturale

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

La mia proteina cristallizzerà? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Previsione e analisi funzionale del disordine nativo nelle proteine dei tre regni della vita

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Domini non globulari in sequenze di proteine: segmentazione automatizzata usando misure di complessità

,

Comput. Chem

,

1994

, vol.

18

(pag.

269

285

)

Note dell’autore

Associate Editor: Thomas Lengauer