Articles

XtalPred: un servidor web para la predicción de la cristalizabilidad de proteínas

Abstracto

Resumen: XtalPred es un servidor web para la predicción de la cristalizabilidad de proteínas. La predicción se realiza comparando varias características de la proteína con las distribuciones de estas características en TargetDB y combinando los resultados en una probabilidad global de cristalización. XtalPred proporciona: (1) una comparación detallada de las características de la proteína con la distribución correspondiente de TargetDB; (2) un resumen de las características de la proteína y las predicciones que indican los problemas que probablemente se encontrarán durante la cristalización de la proteína; (3) la predicción de los ligandos; y (4) (opcional) listas de homólogos cercanos de genomas microbianos completos que tienen más probabilidades de cristalizar.

Disponibilidad: El servidor web XtalPred está disponible gratuitamente para los usuarios académicos en http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUCCIÓN

La alta tasa de fallos en la determinación experimental de las estructuras de las proteínas sigue siendo uno de los mayores retos de la biología estructural. Los datos de los centros de Genómica Estructural (SG) muestran que la tasa de éxito global en una configuración de alto rendimiento (HT) sólo ha sido de alrededor del 5% y, aunque no hay estadísticas disponibles para los laboratorios regulares de biología estructural, la evidencia anecdótica sugiere que la tasa de fracaso también es muy alta. Las herramientas bioinformáticas pueden ayudar a reconocer qué proteínas tienen más probabilidades de éxito y ofrecer sugerencias de posibles modificaciones para todas las demás. La selección de objetivos con mayor probabilidad de éxito es especialmente útil para los centros de SG, que se dirigen a familias de proteínas más que a proteínas individuales.

La relación entre las características de las proteínas y su cristalizabilidad ha sido investigada por varios grupos (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Sin embargo, los laboratorios tradicionales sólo informan de los éxitos en la determinación de la estructura, lo que hace que los análisis de minería de datos sean casi imposibles debido a la falta de conjuntos de datos adecuadamente equilibrados con datos positivos y negativos. Esta situación cambió con el establecimiento de la Iniciativa de Estructuras Proteicas (www.nigms.nih.gov/Initiatives/PSI), que requiere que sus centros miembros informen tanto de los éxitos como de los fracasos a una base de datos central, TargetDB (Chen et al., 2004). Los conjuntos de aprendizaje extraídos de TargetDB han permitido realizar análisis más avanzados (Chandonia et al., 2006; Overton y Barton, 2006; Smialowski et al., 2006), que ampliamos aquí utilizando datos y conocimientos derivados del trabajo en el Joint Center for Structural Genomics (JCSG).

Hemos utilizado el método de pool de opinión logarítmico (Genest et al., 1984) para combinar las distribuciones de probabilidad calculadas para varias características individuales de las proteínas en una «puntuación de viabilidad de la cristalización» (Slabinski et al., 2007), donde demostramos que nuestro método puede mejorar significativamente la tasa de éxito global en la determinación de estructuras. El análisis de las deposiciones en el PDB (Berman et al., 2000) ha confirmado que las mismas características de la proteína también tienen un impacto sustancial en las tasas de éxito en la determinación de la estructura estándar, no HT, lo que sugiere que la «puntuación de viabilidad de la cristalización» también sería de gran interés para una amplia comunidad de biología estructural. Desde 2006, nuestro algoritmo se ha utilizado con éxito en el JCSG para seleccionar objetivos óptimos de determinación de estructuras a partir de familias de proteínas sin cobertura estructural o con una cobertura estructural inadecuada.

El servidor XtalPred se basa en el conocimiento estadístico sobre la cristalización de proteínas recopilado por el PSI durante los últimos 7 años y pone los conocimientos de la determinación de estructuras HT a disposición de una amplia comunidad de biólogos estructurales.

2 RESUMEN DE LAS CARACTERÍSTICAS DEL SERVIDOR

Análisis de cristalización: el servidor web compara nueve características bioquímicas y biofísicas de la proteína que se está analizando con las correspondientes distribuciones de probabilidad de TargetDB. Se genera un gráfico para cada característica de la proteína, mostrando las distribuciones de fallos y aciertos en los conjuntos extraídos de TargetDB; las distribuciones empíricas interpoladas de la probabilidad de cristalización; y las posiciones de la proteína en esas distribuciones (Fig. 1).

Fig. 1.

Ejemplo de la salida de XtalPred. Las probabilidades calculadas a partir de los histogramas obtenidos para las características individuales de la proteína (panel derecho) se utilizan para asignar la proteína a la clase de cristalización apropiada (la esquina superior izquierda). Los enlaces a las listas de homólogos encontrados en diferentes bases de datos se encuentran en la esquina inferior izquierda.

Fig. 1.

Ejemplo de salida de XtalPred. Las probabilidades calculadas a partir de los histogramas obtenidos para las características individuales de la proteína (panel derecho) se utilizan para asignar la proteína a la clase de cristalización apropiada (la esquina superior izquierda). Los enlaces a las listas de homólogos encontrados en diferentes bases de datos se encuentran en la esquina inferior izquierda.

Predicción de cristalización: la predicción se realiza combinando las probabilidades de cristalización individuales en una única puntuación de cristalización. Basándose en esta puntuación, la proteína se asigna a una de las cinco clases de cristalización: óptima, subóptima, media, difícil y muy difícil (Fig. 1).

Resumen de la información sobre la proteína: el servidor calcula y predice las características de la proteína que están relacionadas con la cristalizabilidad de la misma y las resume en una página web. Las características calculadas de la proteína incluyen: longitud de la proteína; masa molecular; índice de gravedad (Kyte y Doolittle, 1982); índice de inestabilidad (Guruprasad et al., 1990); coeficiente de extinción (Gill y von Hippel, 1989); punto isoeléctrico (Creighton, 1984); contenido de residuos de Cys, Met, Trp, Tyr y Phe; y número medio de inserciones en la alineación comparado con homólogos en la base de datos no redundante (NR) de secuencias de proteínas. Las características predichas incluyen: estructura secundaria, regiones desordenadas, regiones de baja complejidad, regiones de espiral, hélices transmembrana y péptidos señal. Se destacan las características que pueden indicar problemas durante el proceso de cristalización. En el caso de las predicciones realizadas por software externo (Sección 3), la salida en bruto está disponible como archivos de texto.

Cerrar homólogos que tienen más probabilidades de cristalizar: la clase de cristalización precalculada para todos los genomas microbianos completos (actualmente 487 genomas; 1, 549, 504 proteínas) están disponibles en el servidor. Para cada proteína presentada, el servidor proporciona una lista de sus homólogos con la información sobre su clase de cristalizabilidad. La lista también contiene enlaces a información detallada sobre cada homólogo.

Predicción de pliegues y ligandos: XtalPred proporciona la alineación de la secuencia de la proteína de entrada con todas las proteínas homólogas en PDB. También contiene una lista de ligandos co-cristalizados con proteínas homólogas y su estructura secundaria.

Escalabilidad: el servidor puede procesar hasta 10 secuencias en un solo envío. Los envíos más grandes deben ser discutidos con un administrador del servidor web.

Homólogos: el servidor proporciona la alineación con homólogos que pueden ser utilizados para proponer truncamientos.

3 DETALLES DEL SERVIDOR

El servidor XtalPred utiliza varios programas disponibles públicamente para el cálculo y predicción de las características de las proteínas: PSI-BLAST para las búsquedas de homología; CD-HIT (Li y Godzik, 2006) para agrupar las bases de datos de secuencias de proteínas; COILS (Lupas et al., 1991) para la predicción de las regiones de coiled-coil, TMHMM (Krogh et al., 2001) para la predicción de hélices transmembrana; RPSP (Plewczynski et al., 2007) para la predicción de péptidos señal, SEG (Wootton, 1994) para el cálculo de regiones de baja complejidad; PSIPRED (Jones, 1999) para la predicción de estructuras secundarias; y DISOPRED2 (Ward et al., 2004) para la predicción de las regiones estructuralmente desordenadas.

Agradecimientos

Este trabajo ha contado con el apoyo de las becas U54 GM074898 (JCSG) y P20 GM076221 (JCMM) de la Iniciativa de Estructura de Proteínas de los Institutos Nacionales de Salud (NIH).

Conflicto de intereses: ninguno declarado.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Propiedades biofísicas de las proteínas que se correlacionan con el éxito de la cristalización en Thermotoga maritima: estrategia de agrupación máxima para la genómica estructural

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Selección y deselección de objetivos en el Centro de Genómica Estructural de Berkeley

,

Proteínas

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: una base de datos de registro de objetivos para proyectos de genómica estructural

,

Bioinformatics (Oxford, Inglaterra )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteínas: estructura y propiedades moleculares

,

1984
Nueva York
W. H. Freeman and Co

Genest
C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

von Hippel
PH

.

Cálculo de los coeficientes de extinción de las proteínas a partir de los datos de la secuencia de aminoácidos

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlación entre la estabilidad de una proteína y su composición de dipéptidos: un enfoque novedoso para predecir la estabilidad in vivo de una proteína a partir de su secuencia primaria

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Predicción de la estructura secundaria de las proteínas basada en matrices de puntuación específicas para cada posición

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicción de la topología de las proteínas transmembrana con un modelo de Markov oculto: aplicación a genomas completos

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Un método sencillo para mostrar el carácter hidropático de una proteína

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

Una escala normalizada para la clasificación de objetivos de genómica estructural: el OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczynski
D

, et al.

El RPSP: servidor web para la predicción de péptidos señal

,

Polímero

,

2007

, vol.

48

(pg.

5493

5496

)

Slabinski
L

, et al.

El reto de la determinación de la estructura de las proteínas – lecciones de la genómica estructural

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

¿Cristalizará mi proteína? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
J

, et al.

Predicción y análisis funcional del desorden nativo en proteínas de los tres reinos de la vida

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Dominios no globulares en secuencias de proteínas: segmentación automatizada utilizando medidas de complejidad

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

Notas del autor

Editor Asociado: Thomas Lengauer