XtalPred: un servidor web para la predicción de la cristalizabilidad de proteínas
Abstracto
Resumen: XtalPred es un servidor web para la predicción de la cristalizabilidad de proteínas. La predicción se realiza comparando varias características de la proteína con las distribuciones de estas características en TargetDB y combinando los resultados en una probabilidad global de cristalización. XtalPred proporciona: (1) una comparación detallada de las características de la proteína con la distribución correspondiente de TargetDB; (2) un resumen de las características de la proteína y las predicciones que indican los problemas que probablemente se encontrarán durante la cristalización de la proteína; (3) la predicción de los ligandos; y (4) (opcional) listas de homólogos cercanos de genomas microbianos completos que tienen más probabilidades de cristalizar.
Disponibilidad: El servidor web XtalPred está disponible gratuitamente para los usuarios académicos en http://ffas.burnham.org/XtalPred
Contact:[email protected]
1 INTRODUCCIÓN
La alta tasa de fallos en la determinación experimental de las estructuras de las proteínas sigue siendo uno de los mayores retos de la biología estructural. Los datos de los centros de Genómica Estructural (SG) muestran que la tasa de éxito global en una configuración de alto rendimiento (HT) sólo ha sido de alrededor del 5% y, aunque no hay estadísticas disponibles para los laboratorios regulares de biología estructural, la evidencia anecdótica sugiere que la tasa de fracaso también es muy alta. Las herramientas bioinformáticas pueden ayudar a reconocer qué proteínas tienen más probabilidades de éxito y ofrecer sugerencias de posibles modificaciones para todas las demás. La selección de objetivos con mayor probabilidad de éxito es especialmente útil para los centros de SG, que se dirigen a familias de proteínas más que a proteínas individuales.
La relación entre las características de las proteínas y su cristalizabilidad ha sido investigada por varios grupos (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). Sin embargo, los laboratorios tradicionales sólo informan de los éxitos en la determinación de la estructura, lo que hace que los análisis de minería de datos sean casi imposibles debido a la falta de conjuntos de datos adecuadamente equilibrados con datos positivos y negativos. Esta situación cambió con el establecimiento de la Iniciativa de Estructuras Proteicas (www.nigms.nih.gov/Initiatives/PSI), que requiere que sus centros miembros informen tanto de los éxitos como de los fracasos a una base de datos central, TargetDB (Chen et al., 2004). Los conjuntos de aprendizaje extraídos de TargetDB han permitido realizar análisis más avanzados (Chandonia et al., 2006; Overton y Barton, 2006; Smialowski et al., 2006), que ampliamos aquí utilizando datos y conocimientos derivados del trabajo en el Joint Center for Structural Genomics (JCSG).
Hemos utilizado el método de pool de opinión logarítmico (Genest et al., 1984) para combinar las distribuciones de probabilidad calculadas para varias características individuales de las proteínas en una «puntuación de viabilidad de la cristalización» (Slabinski et al., 2007), donde demostramos que nuestro método puede mejorar significativamente la tasa de éxito global en la determinación de estructuras. El análisis de las deposiciones en el PDB (Berman et al., 2000) ha confirmado que las mismas características de la proteína también tienen un impacto sustancial en las tasas de éxito en la determinación de la estructura estándar, no HT, lo que sugiere que la «puntuación de viabilidad de la cristalización» también sería de gran interés para una amplia comunidad de biología estructural. Desde 2006, nuestro algoritmo se ha utilizado con éxito en el JCSG para seleccionar objetivos óptimos de determinación de estructuras a partir de familias de proteínas sin cobertura estructural o con una cobertura estructural inadecuada.
El servidor XtalPred se basa en el conocimiento estadístico sobre la cristalización de proteínas recopilado por el PSI durante los últimos 7 años y pone los conocimientos de la determinación de estructuras HT a disposición de una amplia comunidad de biólogos estructurales.
2 RESUMEN DE LAS CARACTERÍSTICAS DEL SERVIDOR
Análisis de cristalización: el servidor web compara nueve características bioquímicas y biofísicas de la proteína que se está analizando con las correspondientes distribuciones de probabilidad de TargetDB. Se genera un gráfico para cada característica de la proteína, mostrando las distribuciones de fallos y aciertos en los conjuntos extraídos de TargetDB; las distribuciones empíricas interpoladas de la probabilidad de cristalización; y las posiciones de la proteína en esas distribuciones (Fig. 1).
Ejemplo de la salida de XtalPred. Las probabilidades calculadas a partir de los histogramas obtenidos para las características individuales de la proteína (panel derecho) se utilizan para asignar la proteína a la clase de cristalización apropiada (la esquina superior izquierda). Los enlaces a las listas de homólogos encontrados en diferentes bases de datos se encuentran en la esquina inferior izquierda.
Ejemplo de salida de XtalPred. Las probabilidades calculadas a partir de los histogramas obtenidos para las características individuales de la proteína (panel derecho) se utilizan para asignar la proteína a la clase de cristalización apropiada (la esquina superior izquierda). Los enlaces a las listas de homólogos encontrados en diferentes bases de datos se encuentran en la esquina inferior izquierda.
Predicción de cristalización: la predicción se realiza combinando las probabilidades de cristalización individuales en una única puntuación de cristalización. Basándose en esta puntuación, la proteína se asigna a una de las cinco clases de cristalización: óptima, subóptima, media, difícil y muy difícil (Fig. 1).
Resumen de la información sobre la proteína: el servidor calcula y predice las características de la proteína que están relacionadas con la cristalizabilidad de la misma y las resume en una página web. Las características calculadas de la proteína incluyen: longitud de la proteína; masa molecular; índice de gravedad (Kyte y Doolittle, 1982); índice de inestabilidad (Guruprasad et al., 1990); coeficiente de extinción (Gill y von Hippel, 1989); punto isoeléctrico (Creighton, 1984); contenido de residuos de Cys, Met, Trp, Tyr y Phe; y número medio de inserciones en la alineación comparado con homólogos en la base de datos no redundante (NR) de secuencias de proteínas. Las características predichas incluyen: estructura secundaria, regiones desordenadas, regiones de baja complejidad, regiones de espiral, hélices transmembrana y péptidos señal. Se destacan las características que pueden indicar problemas durante el proceso de cristalización. En el caso de las predicciones realizadas por software externo (Sección 3), la salida en bruto está disponible como archivos de texto.
Cerrar homólogos que tienen más probabilidades de cristalizar: la clase de cristalización precalculada para todos los genomas microbianos completos (actualmente 487 genomas; 1, 549, 504 proteínas) están disponibles en el servidor. Para cada proteína presentada, el servidor proporciona una lista de sus homólogos con la información sobre su clase de cristalizabilidad. La lista también contiene enlaces a información detallada sobre cada homólogo.
Predicción de pliegues y ligandos: XtalPred proporciona la alineación de la secuencia de la proteína de entrada con todas las proteínas homólogas en PDB. También contiene una lista de ligandos co-cristalizados con proteínas homólogas y su estructura secundaria.
Escalabilidad: el servidor puede procesar hasta 10 secuencias en un solo envío. Los envíos más grandes deben ser discutidos con un administrador del servidor web.
Homólogos: el servidor proporciona la alineación con homólogos que pueden ser utilizados para proponer truncamientos.
3 DETALLES DEL SERVIDOR
El servidor XtalPred utiliza varios programas disponibles públicamente para el cálculo y predicción de las características de las proteínas: PSI-BLAST para las búsquedas de homología; CD-HIT (Li y Godzik, 2006) para agrupar las bases de datos de secuencias de proteínas; COILS (Lupas et al., 1991) para la predicción de las regiones de coiled-coil, TMHMM (Krogh et al., 2001) para la predicción de hélices transmembrana; RPSP (Plewczynski et al., 2007) para la predicción de péptidos señal, SEG (Wootton, 1994) para el cálculo de regiones de baja complejidad; PSIPRED (Jones, 1999) para la predicción de estructuras secundarias; y DISOPRED2 (Ward et al., 2004) para la predicción de las regiones estructuralmente desordenadas.
Agradecimientos
Este trabajo ha contado con el apoyo de las becas U54 GM074898 (JCSG) y P20 GM076221 (JCMM) de la Iniciativa de Estructura de Proteínas de los Institutos Nacionales de Salud (NIH).
Conflicto de intereses: ninguno declarado.
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
. ,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
Notas del autor
Editor Asociado: Thomas Lengauer