Articles

XtalPred: un server web per la previsione della cristallizzabilità delle proteine

Luglio 16, 2021 by admin

Abstract

Sommario: XtalPred è un server web per la previsione della cristallizzabilità delle proteine. La previsione è fatta confrontando diverse caratteristiche della proteina con le distribuzioni di queste caratteristiche in TargetDB e combinando i risultati in una probabilità complessiva di cristallizzazione. XtalPred fornisce: (1) un confronto dettagliato delle caratteristiche della proteina con la corrispondente distribuzione da TargetDB; (2) un riassunto delle caratteristiche della proteina e delle predizioni che indicano i problemi che probabilmente si incontreranno durante la cristallizzazione della proteina; (3) la predizione dei ligandi; e (4) (opzionale) liste di omologhi vicini da genomi microbici completi che hanno più probabilità di cristallizzare.

Disponibilità: Il server web XtalPred è disponibile gratuitamente per gli utenti accademici su http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUZIONE

L’alto tasso di fallimento nella determinazione sperimentale delle strutture proteiche è ancora una delle maggiori sfide della biologia strutturale. I dati dei centri di genomica strutturale (SG) mostrano che il tasso di successo complessivo in un setup ad alta produttività (HT) è stato solo del 5% circa e, mentre non sono disponibili statistiche per i normali laboratori di biologia strutturale, l’evidenza aneddotica suggerisce che anche il tasso di fallimento è molto alto. Gli strumenti bioinformatici possono aiutare a riconoscere quali proteine hanno maggiori probabilità di successo e fornire suggerimenti di possibili modifiche per tutte le altre. La selezione degli obiettivi con la più alta probabilità di successo è particolarmente utile per i centri SG, che mirano a famiglie di proteine piuttosto che a singole proteine.

La relazione tra le caratteristiche delle proteine e la loro cristallizzabilità è stata studiata da diversi gruppi (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Tuttavia, i laboratori tradizionali riportano solo successi nella determinazione della struttura, rendendo le analisi di data mining quasi impossibili a causa della mancanza di set di dati adeguatamente bilanciati con dati positivi e negativi. Questa situazione è cambiata con l’istituzione della Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), che richiede ai suoi centri membri di riportare sia i successi che i fallimenti in un database centrale, TargetDB (Chen et al., 2004). I set di apprendimento estratti da TargetDB hanno permesso analisi più avanzate (Chandonia et al., 2006; Overton e Barton, 2006; Smialowski et al., 2006), che qui espandiamo usando dati e intuizioni derivanti dal lavoro nel Joint Center for Structural Genomics (JCSG).

Abbiamo usato il metodo del pool di opinioni logaritmico (Genest et al, 1984) per combinare le distribuzioni di probabilità calcolate per diverse caratteristiche proteiche individuali in un “punteggio di fattibilità di cristallizzazione” (Slabinski et al., 2007), dove abbiamo dimostrato che il nostro metodo può migliorare significativamente il tasso di successo complessivo nella determinazione della struttura. L’analisi dei depositi nel PDB (Berman et al., 2000) ha confermato che le stesse caratteristiche proteiche hanno anche un impatto sostanziale sui tassi di successo nella determinazione della struttura standard, non-HT, suggerendo che il “punteggio di fattibilità della cristallizzazione” sarebbe anche di significativo interesse per una vasta comunità di biologia strutturale. Dal 2006, il nostro algoritmo è stato usato con successo al JCSG per selezionare obiettivi ottimali di determinazione della struttura da famiglie di proteine con copertura strutturale inadeguata o assente.

Il server XtalPred si basa sulla conoscenza statistica della cristallizzazione delle proteine raccolta dal PSI negli ultimi 7 anni e rende le intuizioni della determinazione della struttura HT disponibili per una vasta comunità di biologi strutturali.

2 SINTESI DELLE CARATTERISTICHE DEL SERVER

Analisi della cristallizzazione: il server web confronta nove caratteristiche biochimiche e biofisiche della proteina analizzata con le corrispondenti distribuzioni di probabilità di TargetDB. Un grafico viene generato per ogni caratteristica della proteina, mostrando le distribuzioni dei fallimenti e dei successi nei set estratti da TargetDB; le distribuzioni empiriche interpolate della probabilità di cristallizzazione; e le posizioni della proteina in quelle distribuzioni (Fig. 1).

Fig. 1.

Esempio di output di XtalPred. Le probabilità calcolate dagli istogrammi ottenuti per le singole caratteristiche della proteina (pannello destro) sono usate per assegnare la proteina alla classe di cristallizzazione appropriata (angolo superiore sinistro). I link alle liste di omologhi trovati in diversi database si trovano nell’angolo in basso a sinistra.

Fig. 1.

Previsione di cristallizzazione: la predizione è fatta combinando le probabilità di cristallizzazione individuali in un singolo punteggio di cristallizzazione. In base a questo punteggio, la proteina viene assegnata a una delle cinque classi di cristallizzazione: ottimale, subottimale, media, difficile e molto difficile (Fig. 1).

Sommario delle informazioni sulla proteina: il server calcola e predice le caratteristiche della proteina che sono collegate alla cristallizzabilità della proteina e le riassume in una pagina web. Le caratteristiche proteiche calcolate includono: lunghezza della proteina; massa molecolare; indice di sugo (Kyte e Doolittle, 1982); indice di instabilità (Guruprasad et al., 1990); coefficiente di estinzione (Gill e von Hippel, 1989); punto isoelettrico (Creighton, 1984); contenuto di residui Cys, Met, Trp, Tyr, e Phe; e numero medio di inserzioni nell’allineamento rispetto agli omologhi nel database non ridondante (NR) delle sequenze proteiche. Le caratteristiche previste includono: struttura secondaria, regioni disordinate, regioni a bassa complessità, regioni a spirale, eliche transmembrana e peptidi di segnale. Le caratteristiche che possono indicare problemi durante il processo di cristallizzazione sono evidenziate. Nel caso di previsioni fatte da software esterni (Sezione 3), l’output grezzo è disponibile come file di testo.

Chiude gli omologhi che hanno più probabilità di cristallizzare: la classe di cristallizzazione precalcolata per tutti i genomi microbici completi (attualmente 487 genomi; 1, 549, 504 proteine) è disponibile dal server. Per ogni proteina presentata, il server fornisce una lista dei suoi omologhi con le informazioni sulla loro classe di cristallizzazione. L’elenco contiene anche collegamenti a informazioni dettagliate su ogni omologo.

Previsione della piega e del ligando: XtalPred fornisce l’allineamento di sequenza della proteina di input con tutte le proteine omologhe nel PDB. Contiene anche una lista di ligandi co-cristallizzati con proteine omologhe e la loro struttura secondaria.

Scalabilità: il server può elaborare fino a 10 sequenze in un singolo invio. Invii più grandi dovrebbero essere discussi con un amministratore del server web.

Omologhi: il server fornisce l’allineamento con gli omologhi che possono essere usati per proporre troncamenti.

3 DETTAGLI DEL SERVER

Il server XtalPred usa diversi programmi pubblicamente disponibili per il calcolo e la predizione delle caratteristiche delle proteine: PSI-BLAST per le ricerche di omologia; CD-HIT (Li e Godzik, 2006) per il clustering dei database di sequenze proteiche; COILS (Lupas et al., 1991) per la predizione delle regioni a spirale, TMHMM (Krogh et al, 2001) per la predizione delle eliche transmembrana; RPSP (Plewczynski et al., 2007) per la predizione dei peptidi di segnale, SEG (Wootton, 1994) per il calcolo delle regioni a bassa complessità; PSIPRED (Jones, 1999) per la predizione della struttura secondaria; e DISOPRED2 (Ward et al, 2004) per la predizione di regioni strutturalmente disordinate.

CONOSCENZE

Questo lavoro è stato sostenuto dalle sovvenzioni NIH Protein Structure Initiative U54 GM074898 (JCSG) e P20 GM076221 (JCMM).

Conflitto di interessi: nessuno dichiarato.

Berman

, et al.

The Protein Data Bank

Nucleic Acids Res

2000

, vol.

(pg.

235

–

242

)

Bertone

, et al.

SPINE: un database di tracciamento integrato e un approccio di data mining per l’identificazione di obiettivi fattibili nella proteomica strutturale ad alto rendimento

Nucleic Acids Res

2001

, vol.

(pg.

2884

–

2898

)

Canaves

, et al.

Proprietà biofisiche delle proteine che correlano con il successo della cristallizzazione in Thermotoga maritima: strategia di clustering massimo per la genomica strutturale

J. Mol. Biol

2004

, vol.

344

(pg.

977

–

991

)

Chandonia

, et al.

Selezione e deselezione dei target al Berkeley Structural Genomics Center

Proteine

2006

, vol.

(pg.

356

–

370

)

Chen

, et al.

TargetDB: un database di registrazione dei target per progetti di genomica strutturale

Bioinformatica (Oxford, Inghilterra )

2004

, vol.

(pg.

2860

–

2862

)

Creighton

. ,

Proteins: Structure and Molecular Properties

1984

New York

W. H. Freeman and Co

Genest

, et al.

Aggregare le opinioni attraverso il pooling logaritmico

Theor. Decis

1984

, vol.

(pg.

–

)

Gill

von Hippel

Calcolo dei coefficienti di estinzione delle proteine dai dati di sequenza degli amminoacidi

Anal. Biochem

1989

, vol.

182

(pg.

319

–

326

)

Goh

, et al.

Mining the structural genomics pipeline: identificazione delle proprietà delle proteine che influenzano l’analisi sperimentale high-throughput

J. Mol. Biol

2004

, vol.

336

(pg.

115

–

130

)

Guruprasad

, et al.

Correlazione tra la stabilità di una proteina e la sua composizione dipeptidica: un nuovo approccio per predire la stabilità in vivo di una proteina dalla sua sequenza primaria

Protein Eng

1990

, vol.

(pg.

155

–

161

)

Jones

Previsione della struttura secondaria della proteina basata su matrici di punteggio specifiche della posizione

J. Mol. Biol

1999

, vol.

292

(pg.

195

–

202

)

Krogh

, et al.

Predicendo la topologia della proteina transmembrana con un modello di Markov nascosto: applicazione ai genomi completi

J. Mol. Biol

2001

, vol.

305

(pg.

567

–

580

)

Kyte

Doolittle

Un metodo semplice per visualizzare il carattere idropatico di una proteina

J. Mol. Biol

1982

, vol.

157

(pg.

105

–

132

)

Godzik

Cd-hit: un programma veloce per raggruppare e confrontare grandi insiemi di sequenze proteiche o nucleotidiche

Bioinformatica (Oxford, Inghilterra )

2006

, vol.

(pg.

1658

–

1659

)

Lupas

, et al.

Predicendo bobine da sequenze di proteine

Science

1991

, vol.

252

(pg.

1162

–

1164

)

Oldfield

, et al.

Per affrontare il collo di bottiglia del disordine intrinseco nella proteomica strutturale

Proteine

2005

, vol.

(pg.

444

–

453

)

Overton

Barton

Una scala normalizzata per la classificazione dei target della genomica strutturale: l’OB-Score

FEBS Lett

2006

, vol.

580

(pg.

4005

–

4009

)

Plewczynski

, et al.

Il RPSP: Web server per la predizione di peptidi di segnale

Polimero

2007

, vol.

(pg.

5493

–

5496

)

Slabinski

, et al.

La sfida della determinazione della struttura delle proteine – lezioni dalla genomica strutturale

Protein Sci

2007

, vol.

(pg.

2472

–

2482

)

Smialowski

, et al.

La mia proteina cristallizzerà? A sequence-based predictor

Proteins

2006

, vol.

(pg.

343

–

355

)

Ward

, et al.

Previsione e analisi funzionale del disordine nativo nelle proteine dei tre regni della vita

J. Mol. Biol

2004

, vol.

337

(pg.

635

–

645

)

Wootton

Domini non globulari in sequenze di proteine: segmentazione automatizzata usando misure di complessità

Comput. Chem

1994

, vol.

(pag.

269

–

285

)

Note dell’autore

Associate Editor: Thomas Lengauer

Digital Travel

XtalPred: un server web per la previsione della cristallizzabilità delle proteine

Abstract

1 INTRODUZIONE

2 SINTESI DELLE CARATTERISTICHE DEL SERVER

3 DETTAGLI DEL SERVER

CONOSCENZE

Note dell’autore

Lascia un commento Annulla risposta

Archivi

Meta