Articles

XtalPred: um servidor web para predição da cristalização de proteínas

Abstract

Sumário: XtalPred é um servidor web para predição da cristalização de proteínas. A previsão é feita comparando várias características da proteína com distribuições destas características no TargetDB e combinando os resultados em uma probabilidade geral de cristalização. O XtalPred fornece: (1) uma comparação detalhada das características da proteína com a distribuição correspondente do TargetDB; (2) um resumo das características e previsões da proteína que indicam problemas que provavelmente serão encontrados durante a cristalização da proteína; (3) a previsão dos ligandos; e (4) (opcional) listas de homólogos próximos de genomas microbianos completos com maior probabilidade de cristalização.

Availability: O servidor web XtalPred está disponível gratuitamente para usuários acadêmicos em http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 INTRODUÇÃO

A alta taxa de falhas na determinação experimental de estruturas protéicas ainda é um dos maiores desafios da biologia estrutural. Dados dos centros de Genômica Estrutural (SG) mostram que a taxa geral de sucesso em uma configuração de alto rendimento (HT) tem sido de apenas cerca de 5% e, embora não haja estatísticas disponíveis para laboratórios regulares de biologia estrutural, evidências anedóticas sugerem que a taxa de falha também é muito alta. As ferramentas bioinformáticas podem ajudar a reconhecer quais proteínas têm maior probabilidade de sucesso e fornecer sugestões de possíveis modificações para todas as outras. A seleção dos alvos com maior chance de sucesso é especialmente útil para centros de SG, visando famílias de proteínas em vez de proteínas individuais.

A relação entre as características das proteínas e sua cristalização tem sido investigada por vários grupos (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005). No entanto, os laboratórios tradicionais relatam apenas êxitos na determinação da estrutura, tornando as análises de mineração de dados quase impossíveis devido à falta de conjuntos de dados adequadamente equilibrados com dados positivos e negativos. Esta situação mudou com o estabelecimento da Iniciativa Estrutura de Proteína (www.nigms.nih.gov/Initiatives/PSI), que requer que seus centros membros relatem tanto os sucessos como os fracassos a uma base de dados central, TargetDB (Chen et al., 2004). Os conjuntos de aprendizagem extraídos do TargetDB permitiram análises mais avançadas (Chandonia et al., 2006; Overton e Barton, 2006; Smialowski et al., 2006), que expandimos aqui usando dados e insights resultantes do trabalho no Joint Center for Structural Genomics (JCSG).

Utilizamos o método logarítmico de pool de opiniões (Genest et al.., 1984) para combinar as distribuições de probabilidade calculadas para várias características individuais da proteína em um “escore de viabilidade de cristalização” (Slabinski et al., 2007), onde demonstramos que nosso método pode melhorar significativamente a taxa de sucesso geral na determinação da estrutura. A análise das deposições no PDB (Berman et al., 2000) confirmou que as mesmas características proteicas também têm um impacto substancial nas taxas de sucesso na determinação da estrutura padrão não-HT, sugerindo que o “escore de viabilidade de cristalização” também seria de interesse significativo para uma ampla comunidade de biologia estrutural. Desde 2006, nosso algoritmo tem sido usado com sucesso no JCSG para selecionar alvos ideais de determinação de estrutura a partir de famílias de proteínas sem cobertura estrutural ou inadequada.

O servidor XtalPred se baseia no conhecimento estatístico sobre cristalização de proteínas coletado pelo PSI ao longo dos últimos 7 anos e torna os conhecimentos da determinação da estrutura HT disponíveis para uma ampla comunidade de biólogos estruturais.

2 RESUMO DO SERVIDOR

Análises de cristalização: o servidor web compara nove características bioquímicas e biofísicas da proteína a ser analisada com as distribuições de probabilidade correspondentes do TargetDB. É gerado um gráfico para cada característica da proteína, mostrando as distribuições de falhas e sucessos nos conjuntos extraídos do TargetDB; as distribuições empíricas interpoladas de probabilidade de cristalização; e as posições da proteína nessas distribuições (Fig. 1).

Fig. 1.

Exemplo da saída de XtalPred. As probabilidades calculadas a partir de histogramas obtidos para características individuais da proteína (painel direito) são utilizadas para atribuir a proteína à classe de cristalização apropriada (o canto superior esquerdo). Links para listas de homólogos encontrados em diferentes bases de dados estão localizados no canto inferior esquerdo.

Fig. 1.

Exemplo da saída de XtalPred. As probabilidades calculadas a partir de histogramas obtidos para características individuais da proteína (painel direito) são usadas para atribuir a proteína à classe de cristalização apropriada (o canto superior esquerdo). Links para listas de homólogos encontrados em diferentes bases de dados estão localizados no canto inferior esquerdo.

Previsão de cristalização: a previsão é feita pela combinação das probabilidades individuais de cristalização em uma única pontuação de cristalização. Com base nesta pontuação, a proteína é atribuída a uma das cinco classes de cristalização: ótima, subótima, média, difícil e muito difícil (Fig. 1).

Resumo de informações sobre a proteína: o servidor calcula e prevê as características da proteína que estão relacionadas com a cristalização da proteína e as resume em uma página da Web. As características proteicas calculadas incluem: comprimento da proteína; massa molecular; índice de gravidade (Kyte e Doolittle, 1982); índice de instabilidade (Guruprasad et al., 1990); coeficiente de extinção (Gill e von Hippel, 1989); ponto isoelétrico (Creighton, 1984); conteúdo de resíduos de Cys, Met, Trp, Tyr e Phe; e número médio de inserções no alinhamento em relação aos homólogos no banco de dados de seqüências proteicas não redundantes (NR). As características previstas incluem: estrutura secundária, regiões desordenadas, regiões de baixa complexidade, regiões de bobinas, helices transmembranas e peptídeos de sinal. As características que podem indicar problemas durante o processo de cristalização são destacadas. No caso de previsões feitas por software externo (Seção 3), a saída bruta está disponível como arquivos de texto.

Fechar homólogos que são mais prováveis de cristalizar: classe de cristalização pré-calculada para todos os genomas microbianos completos (atualmente 487 genomas; 1, 549, 504 proteínas) estão disponíveis no servidor. Para cada proteína submetida, o servidor fornece uma lista dos seus homólogos com a informação sobre a sua classe de cristalização. A lista também contém links para informações detalhadas sobre cada homólogo.

Previsão de dobras e ligaduras: XtalPred fornece alinhamento da sequência da proteína de entrada com todas as proteínas homólogas no PDB. Contém também uma lista de ligandos co-cristalizados com proteínas homólogas e sua estrutura secundária.

Scalabilidade: o servidor pode processar até 10 seqüências em uma única submissão. Submissões maiores devem ser discutidas com um administrador do servidor web.

Homologs: o servidor fornece o alinhamento com homólogos que podem ser usados para propor truncamentos.

3 DETALHES DO SERVIDOR

O servidor XtalPred usa vários programas disponíveis publicamente para cálculo e previsão de características de proteínas: PSI-BLAST para pesquisas de homologia; CD-HIT (Li e Godzik, 2006) para agrupamento de bases de dados de seqüência proteica; COILS (Lupas et al., 1991) para predição de regiões de bobinas, TMHMM (Krogh et al., 2001) para predição de helices transmembranas; RPSP (Plewczynski et al., 2007) para predição de peptídeos de sinal, SEG (Wootton, 1994) para cálculo de regiões de baixa complexidade; PSIPRED (Jones, 1999) para predição de estrutura secundária; e DISOPRED2 (Ward et al, 2004) para predição de regiões estruturalmente desordenadas.

ACENTECIMENTOS

Este trabalho foi apoiado pela Iniciativa de Estrutura de Proteína do NIH grants U54 GM074898 (JCSG) e P20 GM076221 (JCMM).

Conflito de Interesses: nenhum declarado.

>Berman
HM

, et al.

O Banco de Dados de Proteínas

,

Ácidos Nucleicos Res

,

2000

, vol.

28

(pg.

235

242

)

>

>

>

>

>

>

>

>Bertone

>>762828>P

>

, et al.

SPINE: um banco de dados de rastreamento integrado e abordagem de mineração de dados para identificar alvos viáveis em proteômica estrutural de alto rendimento

,

Ácidos nucléicos Res

,

2001

, vol.

29

(pg.

2884

2898

)

>>

>

>

>

>

Canaves

>

JM

>

, et al.

Proteína propriedades biofísicas correlacionadas com o sucesso da cristalização em Thermotoga maritima: estratégia de agrupamento máximo para genômica estrutural

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

>

>

>

>

>

>

>Chandonia

>

JM

>

, et al.

Selecção e deselecção do alvo no Berkeley Structural Genomics Center

,

Proteínas

,

2006

, vol.

62

(pg.

356

370

)

>

>

>

>

>

>

>

Chen

>

L

>

, et al.

TargetDB: uma base de dados de registo de alvos para projectos de genómica estrutural

,

Bioinformática (Oxford, Inglaterra)

,

2004

, vol.

20

(pg.

2860

2862

)

>

>

>

>

>

>

>

>

>Criighton

>

TE

>

. ,

Proteínas: Estrutura e Propriedades Moleculares

,

1984
Nova Iorque
W. H. Freeman and Co

>

>

>

>

>

>

>

>Genest

>

C

>

, et al.

Aggregando opiniões através do agrupamento logarítmico

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

>

>

>

>

>

>

>Gill

>

SC

,

>

von Hippel

>

PH

>

.

Cálculo de coeficientes de extinção de proteínas a partir de dados de sequência de aminoácidos

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

>

>

>

>

>

>

>Goh

>

CS

>

, et al.

Minando o gasoduto de genómica estrutural: identificação de propriedades proteicas que afectam a análise experimental de alto rendimento

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

>

>

>

>

>

>Guruprasad

>

K

>

, et al.

Correlação entre a estabilidade de uma proteína e sua composição dipeptídica: uma nova abordagem para prever a estabilidade in vivo de uma proteína a partir de sua seqüência primária

,

Proteína Eng

,

1990

, vol.

4

(pg.

155

161

)

>

>

>

>

>

Jones

>

DT

>

.

Previsão de estrutura secundária de proteínas baseada em matrizes de pontuação específicas da posição

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

>

>

>

>

>Krogh

>

>A

>

, et al.

Previsão da topologia da proteína transmembrana com um modelo Markov oculto: aplicação para completar genomas

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

>

>

>

>

>

>

>

Kyte

>

J

>

,

Doolittle

>

RF

>

.

Um método simples para mostrar o carácter hidropático de uma proteína

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

>

>

>

>

>

>

Li

>

W

>

,

Godzik

>

A

>

.

Cd-hit: um programa rápido para agrupamento e comparação de grandes conjuntos de sequências de proteínas ou nucleotídeos

,

Bioinformática (Oxford, Inglaterra)

,

2006

, vol.

22

(pg.

1658

1659

)

>

>

>

>

>

>Lupas

>

A

>

, et al.

Previsão de bobinas enroladas de sequências de proteínas

,

Ciência

,

1991

, vol.

252

(pg.

1162

1164

)

>

>

>

>

>

>

Oldfield

>

CJ

>

, et al.

Aparar o gargalo da desordem intrínseca na proteômica estrutural

,

Proteínas

,

2005

, vol.

59

(pg.

444

453

)

>

>

>

>

>

>

>

Overton

>>762828>IM

>

,

>

>Barton

>

GJ

>

.

Uma escala normalizada para classificação de alvos de genómica estrutural: o OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

>

>

>

>

>

>

Plewczynski

>

D

>

, et al.

O RPSP: Servidor Web para previsão de peptídeos de sinal

,

Polímero

,

2007

, vol.

48

(pg.

5493

5496

)

>

>

>

>

>Slabinski

>

L

>

, et al.

O desafio da determinação da estrutura da proteína – lições de genómica estrutural

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

>

>

>

>

>

>Smialowski

>

P

>

, et al.

I cristalizarei a minha proteína? Um preditor baseado em sequência

,

Proteínas

,

2006

, vol.

62

(pg.

343

355

)

>>

>

>

>

>

>

>

Ward

>

JJ

>

, et al.

Previsão e análise funcional de desordem nativa em proteínas dos três reinos da vida

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

>

>

>

>

>

>

>Wootton

>

JC

>

.

Domínios não globulares em sequências de proteínas: segmentação automatizada usando medidas de complexidade

,

Computar. Chem

,

1994

, vol.

18

(pg.

269

285

)

Author notes

Associate Editor: Thomas Lengauer