XtalPred: un server web per la previsione della cristallizzabilità delle proteine
Abstract
Sommario: XtalPred è un server web per la previsione della cristallizzabilità delle proteine. La previsione è fatta confrontando diverse caratteristiche della proteina con le distribuzioni di queste caratteristiche in TargetDB e combinando i risultati in una probabilità complessiva di cristallizzazione. XtalPred fornisce: (1) un confronto dettagliato delle caratteristiche della proteina con la corrispondente distribuzione da TargetDB; (2) un riassunto delle caratteristiche della proteina e delle predizioni che indicano i problemi che probabilmente si incontreranno durante la cristallizzazione della proteina; (3) la predizione dei ligandi; e (4) (opzionale) liste di omologhi vicini da genomi microbici completi che hanno più probabilità di cristallizzare.
Disponibilità: Il server web XtalPred è disponibile gratuitamente per gli utenti accademici su http://ffas.burnham.org/XtalPred
Contact:[email protected]
1 INTRODUZIONE
L’alto tasso di fallimento nella determinazione sperimentale delle strutture proteiche è ancora una delle maggiori sfide della biologia strutturale. I dati dei centri di genomica strutturale (SG) mostrano che il tasso di successo complessivo in un setup ad alta produttività (HT) è stato solo del 5% circa e, mentre non sono disponibili statistiche per i normali laboratori di biologia strutturale, l’evidenza aneddotica suggerisce che anche il tasso di fallimento è molto alto. Gli strumenti bioinformatici possono aiutare a riconoscere quali proteine hanno maggiori probabilità di successo e fornire suggerimenti di possibili modifiche per tutte le altre. La selezione degli obiettivi con la più alta probabilità di successo è particolarmente utile per i centri SG, che mirano a famiglie di proteine piuttosto che a singole proteine.
La relazione tra le caratteristiche delle proteine e la loro cristallizzabilità è stata studiata da diversi gruppi (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Tuttavia, i laboratori tradizionali riportano solo successi nella determinazione della struttura, rendendo le analisi di data mining quasi impossibili a causa della mancanza di set di dati adeguatamente bilanciati con dati positivi e negativi. Questa situazione è cambiata con l’istituzione della Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), che richiede ai suoi centri membri di riportare sia i successi che i fallimenti in un database centrale, TargetDB (Chen et al., 2004). I set di apprendimento estratti da TargetDB hanno permesso analisi più avanzate (Chandonia et al., 2006; Overton e Barton, 2006; Smialowski et al., 2006), che qui espandiamo usando dati e intuizioni derivanti dal lavoro nel Joint Center for Structural Genomics (JCSG).
Abbiamo usato il metodo del pool di opinioni logaritmico (Genest et al, 1984) per combinare le distribuzioni di probabilità calcolate per diverse caratteristiche proteiche individuali in un “punteggio di fattibilità di cristallizzazione” (Slabinski et al., 2007), dove abbiamo dimostrato che il nostro metodo può migliorare significativamente il tasso di successo complessivo nella determinazione della struttura. L’analisi dei depositi nel PDB (Berman et al., 2000) ha confermato che le stesse caratteristiche proteiche hanno anche un impatto sostanziale sui tassi di successo nella determinazione della struttura standard, non-HT, suggerendo che il “punteggio di fattibilità della cristallizzazione” sarebbe anche di significativo interesse per una vasta comunità di biologia strutturale. Dal 2006, il nostro algoritmo è stato usato con successo al JCSG per selezionare obiettivi ottimali di determinazione della struttura da famiglie di proteine con copertura strutturale inadeguata o assente.
Il server XtalPred si basa sulla conoscenza statistica della cristallizzazione delle proteine raccolta dal PSI negli ultimi 7 anni e rende le intuizioni della determinazione della struttura HT disponibili per una vasta comunità di biologi strutturali.
2 SINTESI DELLE CARATTERISTICHE DEL SERVER
Analisi della cristallizzazione: il server web confronta nove caratteristiche biochimiche e biofisiche della proteina analizzata con le corrispondenti distribuzioni di probabilità di TargetDB. Un grafico viene generato per ogni caratteristica della proteina, mostrando le distribuzioni dei fallimenti e dei successi nei set estratti da TargetDB; le distribuzioni empiriche interpolate della probabilità di cristallizzazione; e le posizioni della proteina in quelle distribuzioni (Fig. 1).
Esempio di output di XtalPred. Le probabilità calcolate dagli istogrammi ottenuti per le singole caratteristiche della proteina (pannello destro) sono usate per assegnare la proteina alla classe di cristallizzazione appropriata (angolo superiore sinistro). I link alle liste di omologhi trovati in diversi database si trovano nell’angolo in basso a sinistra.
Esempio di output di XtalPred. Le probabilità calcolate dagli istogrammi ottenuti per le singole caratteristiche della proteina (pannello destro) sono usate per assegnare la proteina alla classe di cristallizzazione appropriata (angolo superiore sinistro). I link alle liste di omologhi trovati in diversi database si trovano nell’angolo in basso a sinistra.
Previsione di cristallizzazione: la predizione è fatta combinando le probabilità di cristallizzazione individuali in un singolo punteggio di cristallizzazione. In base a questo punteggio, la proteina viene assegnata a una delle cinque classi di cristallizzazione: ottimale, subottimale, media, difficile e molto difficile (Fig. 1).
Sommario delle informazioni sulla proteina: il server calcola e predice le caratteristiche della proteina che sono collegate alla cristallizzabilità della proteina e le riassume in una pagina web. Le caratteristiche proteiche calcolate includono: lunghezza della proteina; massa molecolare; indice di sugo (Kyte e Doolittle, 1982); indice di instabilità (Guruprasad et al., 1990); coefficiente di estinzione (Gill e von Hippel, 1989); punto isoelettrico (Creighton, 1984); contenuto di residui Cys, Met, Trp, Tyr, e Phe; e numero medio di inserzioni nell’allineamento rispetto agli omologhi nel database non ridondante (NR) delle sequenze proteiche. Le caratteristiche previste includono: struttura secondaria, regioni disordinate, regioni a bassa complessità, regioni a spirale, eliche transmembrana e peptidi di segnale. Le caratteristiche che possono indicare problemi durante il processo di cristallizzazione sono evidenziate. Nel caso di previsioni fatte da software esterni (Sezione 3), l’output grezzo è disponibile come file di testo.
Chiude gli omologhi che hanno più probabilità di cristallizzare: la classe di cristallizzazione precalcolata per tutti i genomi microbici completi (attualmente 487 genomi; 1, 549, 504 proteine) è disponibile dal server. Per ogni proteina presentata, il server fornisce una lista dei suoi omologhi con le informazioni sulla loro classe di cristallizzazione. L’elenco contiene anche collegamenti a informazioni dettagliate su ogni omologo.
Previsione della piega e del ligando: XtalPred fornisce l’allineamento di sequenza della proteina di input con tutte le proteine omologhe nel PDB. Contiene anche una lista di ligandi co-cristallizzati con proteine omologhe e la loro struttura secondaria.
Scalabilità: il server può elaborare fino a 10 sequenze in un singolo invio. Invii più grandi dovrebbero essere discussi con un amministratore del server web.
Omologhi: il server fornisce l’allineamento con gli omologhi che possono essere usati per proporre troncamenti.
3 DETTAGLI DEL SERVER
Il server XtalPred usa diversi programmi pubblicamente disponibili per il calcolo e la predizione delle caratteristiche delle proteine: PSI-BLAST per le ricerche di omologia; CD-HIT (Li e Godzik, 2006) per il clustering dei database di sequenze proteiche; COILS (Lupas et al., 1991) per la predizione delle regioni a spirale, TMHMM (Krogh et al, 2001) per la predizione delle eliche transmembrana; RPSP (Plewczynski et al., 2007) per la predizione dei peptidi di segnale, SEG (Wootton, 1994) per il calcolo delle regioni a bassa complessità; PSIPRED (Jones, 1999) per la predizione della struttura secondaria; e DISOPRED2 (Ward et al, 2004) per la predizione di regioni strutturalmente disordinate.
CONOSCENZE
Questo lavoro è stato sostenuto dalle sovvenzioni NIH Protein Structure Initiative U54 GM074898 (JCSG) e P20 GM076221 (JCMM).
Conflitto di interessi: nessuno dichiarato.
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
. ,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pag.
–
)
Note dell’autore
Associate Editor: Thomas Lengauer