Articles

XtalPred : un serveur web pour la prédiction de la cristallisabilité des protéines

Abstract

Summary : XtalPred est un serveur web pour la prédiction de la cristallisabilité des protéines. La prédiction est faite en comparant plusieurs caractéristiques de la protéine avec les distributions de ces caractéristiques dans TargetDB et en combinant les résultats dans une probabilité globale de cristallisation. XtalPred fournit : (1) une comparaison détaillée des caractéristiques de la protéine avec la distribution correspondante de TargetDB ; (2) un résumé des caractéristiques de la protéine et des prédictions qui indiquent les problèmes susceptibles d’être rencontrés pendant la cristallisation de la protéine ; (3) la prédiction des ligands ; et (4) (facultatif) des listes d’homologues proches provenant de génomes microbiens complets qui sont plus susceptibles de cristalliser.

Disponibilité : Le serveur web XtalPred est librement disponible pour les utilisateurs académiques sur http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUCTION

Le taux d’échec élevé dans la détermination expérimentale des structures de protéines est toujours l’un des plus grands défis de la biologie structurale. Les données des centres de génomique structurelle (SG) montrent que le taux de réussite global dans une configuration à haut débit (HT) n’a été que d’environ 5% et, bien qu’aucune statistique ne soit disponible pour les laboratoires de biologie structurelle ordinaires, des preuves anecdotiques suggèrent que le taux d’échec est également très élevé. Les outils bioinformatiques peuvent aider à reconnaître les protéines qui ont le plus de chances de réussir et fournir des suggestions de modifications possibles pour toutes les autres. La sélection des cibles ayant les plus grandes chances de succès est particulièrement utile pour les centres de SG, ciblant des familles de protéines plutôt que des protéines individuelles.

La relation entre les caractéristiques des protéines et leur cristallisabilité a été étudiée par plusieurs groupes (Bertone et al., 2001 ; Canaves et al., 2004 ; Goh et al., 2004 ; Oldfield et al., 2005). Cependant, les laboratoires traditionnels ne rapportent que des succès dans la détermination de la structure, ce qui rend les analyses d’exploration de données presque impossibles en raison du manque d’ensembles de données correctement équilibrés avec des données positives et négatives. Cette situation a changé avec la création de l’Initiative sur la structure des protéines (www.nigms.nih.gov/Initiatives/PSI), qui exige de ses centres membres qu’ils signalent les succès et les échecs à une base de données centrale, TargetDB (Chen et al., 2004). Les ensembles d’apprentissage extraits de TargetDB ont permis des analyses plus avancées (Chandonia et al., 2006 ; Overton et Barton, 2006 ; Smialowski et al., 2006), que nous développons ici en utilisant des données et des idées issues des travaux du Joint Center for Structural Genomics (JCSG).

Nous avons utilisé la méthode du pool d’opinions logarithmique (Genest et al, 1984) pour combiner les distributions de probabilité calculées pour plusieurs caractéristiques individuelles des protéines en un « score de faisabilité de cristallisation » (Slabinski et al., 2007), où nous avons démontré que notre méthode peut améliorer de manière significative le taux de réussite global dans la détermination de la structure. L’analyse des dépôts dans la base de données PDB (Berman et al., 2000) a confirmé que les mêmes caractéristiques des protéines ont également un impact substantiel sur les taux de réussite dans la détermination des structures standard, non HT, ce qui suggère que le « score de faisabilité de cristallisation » serait également d’un grand intérêt pour une large communauté de biologie structurelle. Depuis 2006, notre algorithme a été utilisé avec succès au JCSG pour sélectionner des cibles optimales de détermination de structure à partir de familles de protéines avec une couverture structurelle nulle ou inadéquate.

Le serveur XtalPred s’appuie sur les connaissances statistiques sur la cristallisation des protéines recueillies par le PSI au cours des 7 dernières années et met à la disposition d’une large communauté de biologistes structurels les connaissances issues de la détermination de structure HT.

2 RÉSUMÉ DES FONCTIONS DU SERVEUR

Analyses de cristallisation : le serveur web compare neuf caractéristiques biochimiques et biophysiques de la protéine analysée avec les distributions de probabilité correspondantes de TargetDB. Un graphique est généré pour chaque caractéristique de la protéine, montrant les distributions des échecs et des succès dans les ensembles extraits de TargetDB ; les distributions empiriques interpolées de la probabilité de cristallisation ; et les positions de la protéine dans ces distributions (figure 1).

Fig. 1.

Exemple de sortie de XtalPred. Les probabilités calculées à partir des histogrammes obtenus pour les caractéristiques individuelles des protéines (panneau de droite) sont utilisées pour affecter la protéine à la classe de cristallisation appropriée (le coin supérieur gauche). Des liens vers des listes d’homologues trouvés dans différentes bases de données sont situés dans le coin inférieur gauche.

Fig. 1.

Exemple de sortie XtalPred. Les probabilités calculées à partir des histogrammes obtenus pour les caractéristiques individuelles des protéines (panneau de droite) sont utilisées pour affecter la protéine à la classe de cristallisation appropriée (le coin supérieur gauche). Des liens vers des listes d’homologues trouvés dans différentes bases de données sont situés dans le coin inférieur gauche.

Prédiction de cristallisation : la prédiction est faite en combinant les probabilités de cristallisation individuelles en un seul score de cristallisation. Sur la base de ce score, la protéine est affectée à l’une des cinq classes de cristallisation : optimale, sous-optimale, moyenne, difficile et très difficile (Fig. 1).

Résumé des informations sur la protéine : le serveur calcule et prédit les caractéristiques de la protéine qui sont liées à la cristallisabilité de la protéine et les résume sur une page Web. Les caractéristiques calculées des protéines comprennent : la longueur de la protéine ; la masse moléculaire ; l’indice de gravité (Kyte et Doolittle, 1982) ; l’indice d’instabilité (Guruprasad et al., 1990) ; le coefficient d’extinction (Gill et von Hippel, 1989) ; le point isoélectrique (Creighton, 1984) ; la teneur en résidus Cys, Met, Trp, Tyr et Phe ; et le nombre moyen d’insertions dans l’alignement par rapport aux homologues dans la base de données non redondante (NR) des séquences de protéines. Les caractéristiques prédites comprennent : la structure secondaire, les régions désordonnées, les régions à faible complexité, les régions à enroulement, les hélices transmembranaires et les peptides signaux. Les caractéristiques qui peuvent indiquer des problèmes pendant le processus de cristallisation sont mises en évidence. Dans le cas de prédictions faites par un logiciel externe (section 3), la sortie brute est disponible sous forme de fichiers texte.

Formes homologues plus susceptibles de cristalliser : la classe de cristallisation précalculée pour tous les génomes microbiens complets (actuellement 487 génomes ; 1, 549, 504 protéines) est disponible sur le serveur. Pour chaque protéine soumise, le serveur fournit une liste de ses homologues avec les informations sur leur classe de cristallisation. La liste contient également des liens vers des informations détaillées sur chaque homologue.

Prédiction de repliement et de ligand : XtalPred fournit un alignement de séquence de la protéine d’entrée avec toutes les protéines homologues dans PDB. Il contient également une liste de ligands cocristallisés avec des protéines homologues et leur structure secondaire.

Scalabilité : le serveur peut traiter jusqu’à 10 séquences dans une seule soumission. Les soumissions plus importantes doivent être discutées avec un administrateur du serveur web.

Homologues : le serveur fournit l’alignement avec les homologues qui peuvent être utilisés pour proposer des troncatures.

3 DÉTAILS DU SERVEUR

Le serveur XtalPred utilise plusieurs programmes disponibles publiquement pour le calcul et la prédiction des caractéristiques des protéines : PSI-BLAST pour les recherches d’homologie ; CD-HIT (Li et Godzik, 2006) pour le regroupement des bases de données de séquences protéiques ; COILS (Lupas et al., 1991) pour la prédiction des régions de coiled-coil, TMHMM (Krogh et al, 2001) pour la prédiction des hélices transmembranaires ; RPSP (Plewczynski et al., 2007) pour la prédiction des peptides signaux, SEG (Wootton, 1994) pour le calcul des régions de faible complexité ; PSIPRED (Jones, 1999) pour la prédiction de la structure secondaire ; et DISOPRED2 (Ward et al, 2004) pour la prédiction des régions structurellement désordonnées.

ACKNOWLEDGEMENTS

Ce travail a été soutenu par les subventions NIH Protein Structure Initiative U54 GM074898 (JCSG) et P20 GM076221 (JCMM).

Conflit d’intérêt : aucun déclaré.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE : une base de données de suivi intégrée et une approche d’exploration de données pour identifier des cibles réalisables en protéomique structurelle à haut débit

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Propriétés biophysiques des protéines en corrélation avec le succès de la cristallisation chez Thermotoga maritima : stratégie de regroupement maximal pour la génomique structurelle

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Sélection et désélection de cibles au centre de génomique structurelle de Berkeley

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB : une base de données d’enregistrement des cibles pour les projets de génomique structurelle

,

Bioinformatics (Oxford, Angleterre )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteines : structure et propriétés moléculaires

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Calcul des coefficients d’extinction des protéines à partir des données de séquences d’acides aminés

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline : identification des propriétés des protéines qui affectent l’analyse expérimentale à haut débit

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Corrélation entre la stabilité d’une protéine et sa composition en dipeptides : une nouvelle approche pour prédire la stabilité in vivo d’une protéine à partir de sa séquence primaire

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Prédiction de la structure secondaire des protéines basée sur des matrices de notation spécifiques à la position

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Prédire la topologie des protéines transmembranaires avec un modèle de Markov caché : application aux génomes complets

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Une méthode simple pour mettre en évidence le caractère hydropathique d’une protéine

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit : un programme rapide pour regrouper et comparer de grands ensembles de séquences de protéines ou de nucléotides

,

Bioinformatics (Oxford, Angleterre )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Prédire les bobines spiralées à partir des séquences de protéines

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

Une échelle normalisée pour le classement des cibles en génomique structurelle : le OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

Le RPSP : serveur web pour la prédiction de peptides signaux

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

Le défi de la détermination de la structure des protéines – leçons de la génomique structurelle

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize ? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prédiction et analyse fonctionnelle du désordre natif dans les protéines des trois règnes de la vie

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Domaines non globulaires dans les séquences de protéines : segmentation automatisée à l’aide de mesures de complexité

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

Notes de l’auteur

Rédacteur adjoint : Thomas Lengauer