Articles

WormBase: um abrangente recurso de dados para a biologia e genômica da Caenorhabditis

Abstract

WormBase ( http://www.wormbase.org ), o modelo de base de dados de organismos para informações sobre Caenorhabditis elegans e nematódeos relacionados, continua a expandir-se em amplitude e profundidade. No último ano, WormBase adicionou múltiplos conjuntos de dados em larga escala incluindo SAGE, interactome, conjuntos de dados de estrutura de proteínas 3D e NCBI KOGs. Para acomodar esse crescimento, o International WormBase Consortium melhorou a interface do usuário, adicionando novos recursos para auxiliar na navegação, visualização de conjuntos de dados em larga escala, busca avançada e mineração de dados. Internamente, nós reestruturamos os modelos da base de dados para racionalizar a representação dos genes e preparar o sistema para aceitar as sequências genómicas de três espécies adicionais de Caenorhabditis durante o próximo ano.

Recebido 21 de agosto de 2004; Revisado e Aceito 5 de outubro de 2004

DESCRIÇÃO

WormBase é o banco de dados modelo de organismos para a biologia e genômica de Caenorhabditis elegans e Caenorhabditis briggsae . É um recurso em rápida evolução, que é impulsionado pelo fato de C.elegans ser amplamente utilizado como um organismo modelo para uma variedade de tópicos de pesquisa biomédica, incluindo desenvolvimento, neurociência, apoptose e envelhecimento ( 1 – 4 ), e uma gama cada vez mais ampla de dados de alto rendimento está disponível para ele. A seqüência genômica de C.elegans ( 5 ) tem impulsionado projetos de pesquisa em todo o genoma, incluindo ORFeome ( 6 ), interferência de RNA (RNAi) ( 7 ), microarranjo ( 8 ), interatividade (interações proteína-proteína em todo o genoma) ( 9 ), análise serial de expressão gênica (SAGE) ( 10 , 11 ) e outras técnicas de perfil de expressão gênica ( 11 ). Esses conjuntos de dados em larga escala enriqueceram enormemente o conteúdo da WormBase ( 2 , 3 ). Mais recentemente, a disponibilidade de toda a seqüência genômica de C.briggsae ( 12 ), além da de C.elegans , estabeleceu o WormBase como uma plataforma para comparação genômica entre o gênero Caenorhabditides ( 13 ).

O Consórcio Internacional WormBase, composto por mais de 30 cientistas de quatro instituições ( http://wormbase.org/about/people.html ), coleta e anotata conjuntos de dados em grande e pequena escala de C.elegans , C.briggsae e nematóides relacionados, organiza-os em uma única base de dados pública, e os disponibiliza para navegação e download no site WormBase. Além de adquirir dados diretamente depositados por ligação com a comunidade de pesquisa, o consórcio revisa e extrai dados de toda a literatura publicada da Caenorhabditis. Novos lançamentos do banco de dados são disponibilizados a cada duas semanas, garantindo que novos e atualizados conjuntos de dados estejam disponíveis para a comunidade em tempo hábil. Este artigo analisa o progresso recente no conteúdo do WormBase e melhorias na interface do usuário, explica como o WormBase está evoluindo e discute diferentes métodos de acesso aos dados. O artigo encerra com uma discussão de novos recursos planejados para o próximo ano.

Adições recentes ao conteúdo do WormBase

No ano passado nós aumentamos muito o tamanho de alguns conjuntos de dados existentes. Por exemplo, há um aumento de 5 vezes nos pontos de dados de microarranjos e um aumento dramático de 13 vezes nos experimentos de microarranjos, de 8 experimentos (relatados em 2 artigos) para 113 experimentos (relatados em 15 artigos). O número de experimentos de RNAi produzindo um fenótipo não-poluente também mais que dobrou no último ano.

Continuamos a refinar os modelos gênicos de C.elegans com base em novos dados que aparecem na literatura, a partir de novos dados de seqüência nas bases de dados públicas de nucleotídeos (GenBank/EMBL/DDBJ), e a partir de comunicações pessoais da comunidade Worm. A maioria das atividades de cura envolve o refinamento da estrutura dos modelos de genes existentes. Entretanto, nós também continuamos a remover as previsões genéticas que não são mais válidas (por exemplo, quadros de leitura abertos muito curtos) e adicionamos continuamente novas previsões genéticas onde apropriado (geralmente correspondentes a novas isoformas de um gene existente). Apesar do grande número de genes sendo criados e removidos, a contagem total de genes (para genes codificadores de proteínas) tem visto apenas um pequeno aumento líquido (+22 genes) ao longo do ano. Em contraste com isso, a proporção de genes codificadores de proteínas que agora são confirmados por dados de transcrição (ou seja, onde cada exon codificador tem suporte de transcrição) aumentou em 20% (de 4663 para 5569) durante o mesmo período. Isto é devido à disponibilidade de mais dados de transcrição e ao trabalho dos curadores para refinar modelos de genes para melhor se ajustarem aos dados de transcrição disponíveis. Também melhoramos muito os métodos pelos quais as transcrições são mapeadas no genoma e conectadas aos modelos genéticos.

Durante o mesmo período, o WormBase adicionou vários novos conjuntos de dados teóricos e experimentais em larga escala. Adições notáveis incluem conjuntos de dados SAGE em larga escala ( 10 , 11 ), o conjunto de dados interactome ( 9 ), dados estruturais 3D e o conjunto de KOGs do National Center for Biotechnology Information (NCBI) ( 14 ) de grupos ortográficos previstos. Recentemente, a técnica recentemente desenvolvida trans -spliced exon acoplado RNA determinação final (TEC-RED) foi usada para testar os genes expressos em C.elegans ( 15 ) e o conjunto de dados está sendo curado e inserido no WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) é uma técnica sensível para o ensaio de níveis de expressão gênica em todo o genoma que fornece um bom complemento às técnicas baseadas em microarranjos. A partir da versão WS123, o WormBase incorpora os resultados de 12 bibliotecas SAGE, duas das quais já foram publicadas anteriormente ( 10 ). As 12 bibliotecas cobrem vários estágios de desenvolvimento ( 11 ) do embrião ao adulto e tocam 20 417 genes (seqüências de codificação, WS129) correspondendo a 91,9% de todos os genes anotados no genoma C.elegans no WormBase (22 213 incluindo, alternativamente, seqüências de codificação emendadas, WS129). Tags SAGE correspondentes a um gene podem ser encontradas no final da página do gene WormBase (por exemplo http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) e estão ligadas a informações detalhando a abundância da tag SAGE em vários estágios da vida em uma nova página de relatório SAGE ( Figura 1 ).

Figure 1.
relatório SAGE página.

Figure 1.

relatório SAGE página.

Interactome

Dissecar a rede de interacção de uma proteína é muitas vezes uma chave para compreender o seu papel biológico. O WormBase inclui os resultados do ‘Interactome Project’, uma tela em larga escala baseada na técnica de dois híbridos de levedura (Y2H) ( 9 ). No conjunto de dados atual, as iscas são tendenciosas para genes homólogos a genes humanos, de funções multicelulares (genes com homólogos em organismos multicelulares incluindo Drosophila melanogaster , Homo sapiens e Arabidopsis thaliana mas não em Saccharomyces cerevisiae ), ou tendo um papel conhecido em mitose e meiose. Atualmente, WormBase inclui 5534 interações cobrindo 15% do proteoma C.elegans. Os utilizadores podem ver estas interacções a partir da página de resumo do gene.

Estruturas tridimensionais da proteína

Este pequeno mas importante conjunto de dados é do Northeast Structural Genomics Consortium ( http://www.nesg.org ), que tem como objetivo produzir 340 alvos do C.elegans. Os principais alvos do Consórcio são proteínas de organismos do modelo eucariótico, incluindo S.cerevisiae e D.melanogaster, além de C.elegans. Atualmente, estruturas para seis proteínas foram depositadas no Banco de Dados de Proteínas (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Informações detalhadas sobre o status desses 340 C.elegans foram incluídas no WormBase e serão atualizadas regularmente.

NCBI KOGs

KOGs são uma versão específica eukaryote dos Grupos Ortopédicos Conservados originalmente concebidos no NCBI para genomas microbianos ( 14 ). Os KOGs são definidos por um triângulo de melhores resultados recíprocos de BLASTP entre domínios de proteínas eucarióticas de espécies altamente divergentes ( 14 ). Ao longo do último ano, o WormBase incorporou estas anotações KOG, juntamente com outros grupos de homologia ( 14 ). Atualmente, o WormBase carrega 4852 KOGs, que inclui o produto de 9427 genes codificadores de proteínas C.elegans (ou seja, 48% de todos os genes codificadores de proteínas previstos no WS129).

MODO DE MODO DE DADOS INTERNOS E NOVOS IDENTIFICADORES

A base de dados backend do WormBase é ACeDB ( http://www.acedb.org ) ( 4 ). Durante o último ano, nós mudamos a forma como vários tipos de dados são representados na base de dados. Essas modificações no esquema do banco de dados não afetam os usuários habituais. No entanto, usuários avançados que escrevem scripts para acessar o WormBase precisam estar cientes delas. Mudanças significativas no modelo incluem a introdução de uma classe Gene unificada ( http://wormbase.org/db/misc/model?class=Gene ), que contém todas as informações relevantes sobre um gene. Anteriormente, tais informações estavam dispersas entre várias classes inter-relacionadas. Ao mesmo tempo, introduzimos as classes CDS e Transcript para gerenciar melhor as relações entre as transcrições emendadas e seus produtos, e melhoramos significativamente a derivação das estruturas de transcrição a partir das seqüências cDNA e EST.

Juntamente com estas alterações introduzimos identificadores anônimos estáveis para genes, do formulário WBGene00006741, e para papéis, do formulário WBPaper0005637, na mesma forma que os identificadores de pessoa do formulário WBPerson241. Esses identificadores rastreiam os vários nomes que foram usados para a entidade correspondente e devem ser usados, sempre que possível, para referências cruzadas de bancos de dados. O site suporta URLs do formulário http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Perguntas sobre modelos de dados podem ser dirigidas a [email protected] .

ENCEMENTOS DE INTERFACE DO UTILIZADOR

Enhancements to WormBase genome browser

O genome browser é um componente central do WormBase que permite aos utilizadores visualizar as estruturas do modelo genético e as suas evidências de suporte, bem como outras características, tais como polimorfismos de nucleótidos únicos (SNPs), elementos repetitivos e reagentes experimentais. Ao longo do último ano, o navegador foi aprimorado de várias maneiras: (i) suporte a gráficos vectoriais escaláveis ( SVG ) . As imagens do navegador do genoma WormBase têm sido amplamente utilizadas em apresentações e ilustrações de publicações ( 2 , 3 , 17 ), mas sua natureza bitmapped leva à degradação da imagem quando impressas em alta resolução. Recentemente adicionamos um recurso que permite aos usuários do WormBase baixar imagens específicas do genoma do navegador como arquivos SVG ( http://www.w3.org/TR/SVG/ ), que podem ser exibidos, editados e impressos em alta resolução usando softwares compatíveis com SVG como o Adobe Illustrator 10. (ii) Destaque de características . Para auxiliar na localização e visualização dos recursos de interesse, o WormBase agora destaca com um fundo amarelo o recurso que os usuários encontraram em uma busca. Essa mudança é especialmente útil quando os usuários navegam em janelas de grande tamanho com várias faixas ativadas. (iii) Regiões não traduzidas ( UTRs ). Tanto o modelo de dados interno como a exibição visual foram agora modificados para mostrar as secções não traduzidas das transcrições, bem como as emendas internas que ocorrem dentro do 5′- ou 3′-UTRs. (iv) Mais pistas de características , incluindo SNPs, tags SAGE, operon, sites de poli(A) e sequências de sinais previstos. (v) Suporte DAS . O navegador do genoma pode agora ser utilizado como visualizador de pistas do Sistema de Anotação Distribuída (DAS) ( 18 ), permitindo aos utilizadores sobrepor as suas próprias anotações nas pistas do WormBase.

EST página de alinhamento e página de alinhamento de proteínas

WormBase agora mantém alinhamentos em nível de nucleotídeos de ESTs, cDNAs e outras sequências tanto dentro das espécies como entre elas. Por exemplo, o alinhamento entre os genomas C.elegans e C.briggsae pode ser visto tanto em uma visão de baixa resolução que enfatiza a relação entre um grupo de genes colineares ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), ou em uma visão de alinhamento de texto de alta resolução que mostra diferenças em nucleotídeos individuais. ESTs e cDNAs de C.elegans e outros nematódeos podem ser visualizados em uma visão de alinhamento múltiplo que destaca desalinhamentos e lacunas ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

A nível proteico, WormBase mantém uma lista dos melhores produtos proteicos BLAST de outras espécies importantes, incluindo humanos ( H.sapiens ), ratos ( Mus musculus ), ratos ( Rattus norvegicus ), moscas ( D.melanogaster ), leveduras ( S.cerevisiae ) e C.briggsae , que juntos podem fornecer insights sobre a função dos genes relacionados. Todos os resultados de BLAST estão hiperligados a uma entrada relevante no respectivo banco de dados do organismo modelo ou ao Swiss-Prot/TrEMBL, conforme o caso. O display de alinhamento múltiplo destaca os resíduos de aminoácidos conservados usando um código de cor baseado nas propriedades químicas dos resíduos ( Figura 2 ).

Figure 2.

Alinhamento de proteínas página.

Figure 2.

Página de alinhamento de proteínas.

>

Mapa do site WormBase e glossário WormBase

No último ano, nós adicionamos um mapa do site WormBase ( http://wormbase.org/db/misc/site_map ) para fornecer uma visão geral do número crescente de páginas web. Os usuários podem acessar esse mapa diretamente do banner de navegação no topo de cada página do WormBase. A página do mapa do site lista todas as páginas do WormBase e fornece aos usuários diferentes visualizações. Por exemplo, os usuários podem escolher ‘Visualização Detalhada’ para obter uma breve visão geral de páginas individuais antes de navegar pelas páginas. E a ‘Visão Alfabética’ lista as páginas de busca em ordem alfabética. Recentemente, o WormBase estabeleceu uma página de glossário ( http://dev.wormbase.org/db/misc/glossary ) que lista definições de termos comuns usados em todo o site.

WormBase COMO UMA PLATAFORMA DE MINERAÇÃO DE DADOS

As biólogos vêm para fazer um uso mais sofisticado de conjuntos de dados em larga escala, há uma necessidade crescente de um recurso que é mais do que um repositório de apontar e clicar, mas que também fornece análise de dados e ferramentas de mineração. Esta seção descreve brevemente os recursos existentes e recentemente introduzidos que tornam o WormBase adequado para mineração de dados.

Acesso e recuperação do WormBase

Existem cinco métodos diferentes para acessar o WormBase, cada um adequado para um conjunto diferente de propósitos. Os usuários podem escolher os métodos de acesso mais apropriados, de acordo com sua experiência e necessidades.

  • Navegação pelo site . Esta é uma abordagem one-item-at-a-time. Usuários do WormBase tipicamente entram no WormBase a partir da página principal, pesquisando o gene (ou outros itens) de interesse na caixa de pesquisa. Alternativamente, os usuários podem abrir o mapa do site WormBase clicando em um link no banner de navegação superior e digitar uma página específica para busca, seja por sequência (BLAST ou BLAT) ou por texto. Uma vez que os usuários encontrem seu item de interesse, eles podem navegar pelas páginas da web relacionadas, seguindo os links abaixo. A vantagem de trabalhar com o WormBase desta forma é que os usuários podem obter visualizações e informações detalhadas sobre os itens de interesse.

  • Batch retrieval . Os utilizadores do WormBase necessitam cada vez mais de obter relatórios de lotes personalizados. Para atender a essa necessidade, o WormBase fornece duas páginas de busca na web: ‘Batch Genes’ e ‘Batch Sequences’ ( 2 ). A página Batch Genes permite que os usuários recuperem todos os campos de dados de genes biologicamente interessantes, desde IDs de bancos de dados externos até motivos proteicos, termos GO, posições genômicas, fenótipos e seqüências de DNA e proteínas subjacentes. Esta página dá aos usuários a opção de baixar os resultados em texto simples ou no formato HTML, e fornece uma variedade de formas de selecionar o conjunto de genes de interesse. A página Batch Sequences é ideal para recuperar dados baseados em sequências, tais como UTRs, introns, elementos promotores putativos e assim por diante. Por exemplo, esta facilidade pode ser usada para gerar arquivos de seqüência que consistem em um comprimento específico de seqüência a montante a partir de um conjunto selecionado de genes codificadores de proteínas. Ambas as páginas podem ser facilmente acessadas a partir do banner de navegação superior. O benefício deste método de busca é que ele retorna resultados para um grande número de itens (genes).

  • Perguntar linguagem de busca . Para usuários que estão confortáveis com as linguagens de busca do banco de dados ACeDB e familiarizados com os modelos do banco de dados WormBase, as buscas em linguagem de busca representam um método rápido e versátil de busca no WormBase. Duas páginas de busca em linguagem de consulta estão disponíveis: uma para a linguagem de consulta do WormBase, a linguagem de consulta original ACeDB, e outra para AQL, a nova linguagem de consulta ACeDB que é mais similar ao SQL. Essas páginas podem ser acessadas a partir da página ‘Mapa do Site’ do WormBase. Para usuários que não estão familiarizados com as linguagens de consulta ACeDB, as páginas de pesquisa fornecem instruções e exemplos de consultas. O principal benefício é que os usuários podem formular sofisticadas consultas ad hoc.

  • Bulk downloads . Os usuários podem baixar conjuntos de genes inteiros ou mesmo toda a própria base de dados. O WormBase fornece uma série de extratos de banco de dados em seu site FTP, incluindo coordenadas de genes e outras características, seqüências de proteínas, dados de emenda de genes e informações de mapeamento genético. O genoma inteiro e suas anotações estão disponíveis em um formato tabular que pode ser carregado e consultado com uma variedade de bancos de dados relacionais, incluindo MySQL, PostgreSQL e Oracle. Uma tabela é fornecida para cada versão que liga produtos PCR como os utilizados para experimentos com microarrays e RNAi aos genes atualmente anotados. WormBase também fornece o banco de dados completo no formato ACeDB. A vantagem deste método é que os usuários não precisam confiar na Internet para a recuperação de dados, de modo que seu processamento de dados não seja limitado pelo acesso à Internet. Os problemas associados a este método são que os usuários precisam estar muito familiarizados com a natureza dos conjuntos de dados e com os modelos de banco de dados.

  • Scripting . Para usuários mais avançados que conhecem programação de scripts, o WormBase fornece um servidor de acesso aberto ‘aceserver’ (em http://aceserver.cshl.org ) para acesso direto ao banco de dados backend do WormBase ( 19 ). A página de instruções de mineração de dados do WormBase fornece aos pesquisadores detalhes sobre como se conectar a esses bancos de dados usando a interface de programação da aplicação Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), juntamente com um repositório de scripts de scripts Perl reutilizáveis. Os usuários podem executar esses scripts em suas máquinas locais e usá-los como modelos para personalizar os próprios scripts. A maior vantagem disso é que os usuários podem consultar, formatar e processar os resultados da busca na medida que desejarem. Uma desvantagem óbvia é que os usuários precisam adquirir algumas habilidades de programação. No entanto, isto está a tornar-se cada vez mais popular entre os utilizadores avançados.

Ferramentas especializadas em mineração de dados

Como plataforma de análise de seqüências, o WormBase tem disponibilizado um grande número de ferramentas de análise de seqüências para os usuários. Essas ferramentas incluem BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), mapeador de coordenadas, alinhador EST e alinhador de proteínas. No ano passado, duas novas ferramentas de mineração de dados, Textpresso ( http://www.textpresso.org ) ( 23 ), uma ferramenta de pesquisa bibliográfica, e CisOrtho ( 24 ), uma ferramenta de pesquisa comparativa cis -elementos também foram adicionadas ao WormBase. Textpresso é um mecanismo de busca de texto completo, que dá aos pesquisadores a capacidade de pesquisar o corpo de todas as literaturas do WormBase, o que inclui uma porcentagem substancial da literatura C.elegans e C.briggsae. Atualmente, a base de dados Textpresso contém 19 985 documentos com curadoria, dos quais 4420 têm textos completos. Estes documentos provêm de quatro fontes principais: (i) documentos da CGC . São artigos de revistas científicas mantidos pelo Centro de Genética Caenorhabditis ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) resumos de Worm Meetings ; (iii) resumos de Worm Breeders Gazette ; e (iv) Miscelânea . Estes são vários outros resumos contendo dados sobre C.elegans e C.briggsae . Outra característica útil do Textpresso é que ele retorna as frases que contêm as palavras-chave, com links para páginas de papel do WormBase e páginas do PubMed.

CisOrtho ( 24 ) funciona a partir de um site de ligação consensual que é representado como uma matriz de peso. Ele identifica sites potenciais em um genoma pré-filtrado e depois filtrará ainda mais avaliando a conservação do site putativo no genoma de uma espécie relacionada, um processo chamado footprinting filogenético. CisOrtho pode ser acessado em http://www.wormbase.org/cisortho/ .

DATABASE FREEZES

No passado, a política de atualização quinzenal do WormBase apresentou um problema aos pesquisadores que publicaram resultados baseados no WormBase mineiro porque na época em que seus resultados foram publicados a versão do WormBase na qual eles basearam suas análises já havia sido substituída. Para ajudar a tornar tal pesquisa editável e reprodutível, adotamos uma nova política na qual cada décima versão do WormBase se torna uma versão congelada. Lançamentos congelados estão disponíveis perpetuamente em sites WormBase especialmente designados com o nome http://ws100.wormbase.org , http://ws110.wormbase.org e assim por diante. O primeiro congelamento foi http://ws100.wormbase.org , lançado em 10 de maio de 2003. O congelamento mais recente é http://ws130.wormbase.org , lançado em 16 de agosto de 2004. Os pesquisadores são encorajados a realizar análises em larga escala em um lançamento congelado e a citar o número do lançamento em suas publicações. Apontadores para todos os congelamentos são exibidos na página principal do site WormBase ao vivo.

COLLABORAÇÕES COM OUTRAS BASES DE DADOS DE ORGANISMO DO MODELO

WormBase é uma parte do projeto GMOD ( 25 , 26 ), uma ampla colaboração entre as bases de dados do organismo modelo para desenvolver vocabulários comuns, modelos de dados, ferramentas de software e interfaces de usuário aplicáveis em todas as bases de dados da comunidade do organismo modelo. Como parte deste projeto, o WormBase fornece links baseados em seqüência-similaridade entre suas páginas de genes e as páginas de genes do FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) e Reactome ( http://www.reactome.org ). Links para RGD ( 30 ) e MGD ( 31 ) estão planejados.

Recentemente, o projeto GMOD desenvolveu uma representação comum das características da seqüência genômica conhecida como Sequence Ontology ( http://song.sourceforge.net ), o que facilita a troca de anotações genômicas entre os vários MODs e incentiva o uso de ferramentas analíticas e de visualização comuns. Os participantes do GMOD já estão usando pacotes de software comuns em seus sites para visualizar anotações genômicas, desenhar mapas genéticos e pesquisar a literatura, e esta convergência será reforçada num futuro próximo, à medida que os MODs se moverem em direção a uma página genética unificada.

Direções do Futuro

WormBase evoluiu do ACeDB ( http://www.acedb.org ), para uma base de dados que engloba a curadoria e biologia da literatura de C.elegans ( 4 ), e recentemente para uma base de dados que abriga a biologia e dados genômicos de múltiplas espécies nematóides ( 2 , 3 ). O WormBase ainda é um trabalho em andamento. Na frente da interface do usuário, futuros aprimoramentos incluem o WormMart, que é baseado no BioMart, um avançado sistema de geração de consultas e relatórios desenvolvido pela primeira vez para uso com o Ensembl ( 32 ). Na frente de dados, estamos aguardando ansiosamente o sequenciamento e anotação do genoma de mais três espécies de nematóides ( http://genome.gov/page.cfm?pageID=10002154 ), elevando para cinco o número de genomas de Caenorhabditis mantidos pelo WormBase. Durante 2005, WormBase planeja introduzir um navegador para metabolismo intermediário de nematódeos e caminhos biológicos de ordem mais alta. O navegador e o conjunto de dados subjacentes serão desenvolvidos em colaboração com os projetos Reactome e MetaCyc ( http://metacyc.org/ ) ( 33 ). Juntos, eles fornecerão um recurso inigualável para a dissecação de elementos funcionais nos genomas da Caenorhabditis e fornecerão valiosos insights sobre a evolução e as adaptações biológicas desses organismos.

O WormBase Consortium continuará a abordar as questões levantadas pelos usuários do WormBase, mantendo uma interface de usuário simples e amigável enquanto adiciona mais ferramentas de busca e pesquisa para permitir a evolução do WormBase de um repositório de dados para um recurso a ser usado por todos os biólogos a fim de maximizar o valor da pesquisa do organismo modelo em C.elegans e seus parentes.

Como sempre, agradecemos comentários, perguntas, correções e submissões de dados ( [email protected] ).

A versão online deste artigo foi publicada sob um modelo de acesso aberto. Os usuários têm o direito de usar, reproduzir, divulgar ou exibir a versão de acesso aberto deste artigo para fins não comerciais, desde que: a autoria original seja devida e integralmente atribuída; o Journal e a Oxford University Press sejam atribuídos como o local original de publicação com os detalhes corretos da citação fornecida; se um artigo for subseqüentemente reproduzido ou divulgado não em sua totalidade, mas apenas em parte ou como um trabalho derivado, isso deve ser claramente indicado. Para permissões de reutilização comercial, por favor contacte [email protected] .

P.W.S. é um Investigador do Instituto Médico Howard Hughes. Agradecemos Sheldon McKay e Kris Gunsalus pela leitura crítica do manuscrito. WormBase é apoiado pelo subsídio P41-HG02223 do US National Human Genome Research Institute e do British Medical Research Council.

Riddle,D.L., Blumenthal,T., Meyer,B.J. e Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W.,Chen,N.,Cunningham,F.,Tello-Ruiz,M.,Antoshechkin,I.,Bastiani,C.,Bieri,T.,Blasiar,D.,Bradnam,K.,Chan,J. et al . (

2004

) WormBase: um recurso multiespecífico para a biologia e genômica dos nematódeos.

Ácidos Nucleicos Res.

,

32

(Edição da base de dados),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: uma base de dados multi-espécies para genómica comparativa.

Ácidos Nucleicos Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. e Spieth,J. (

2001

) WormBase: acesso em rede ao genoma e à biologia de Caenorhabditis elegans .

Ácidos nucléicos Res.

,

29

,

82

-86.

O Consórcio Sequenciador C.elegans (

1998

) Sequência genómica do nemátodo C.elegans : uma plataforma para a investigação da biologia.

Ciência

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. e Harris,T.W. (

2004

) WormBase como plataforma integrada para o C. elegans ORFeome.

Genome Res.
14

,

2155>2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Análise funcional sistemática do genoma Caenorhabditis elegans usando RNAi.

Natureza

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. e Davidson,G.S. (

2001

) Um mapa de expressão gênica para Caenorhabditis elegans .

Ciência

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) Um mapa da rede interativa do metazoan C. elegans .

Ciência

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. e Marra,M.A. (

2001

) Alterações na expressão gênica associadas à parada de desenvolvimento e longevidade em Caenorhabditis elegans .

Res.genoma

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) A sequência genómica de Caenorhabditis briggsae : uma plataforma para a genómica comparativa.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. e Sternberg,P.W. (

2003

) O esboço da sequência genómica do nemátodo Caenorhabditis briggsae , um companheiro de C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) A base de dados COG: uma versão actualizada inclui eukaryotes.

BMC Bioinformática

,

4

,

41

.

Hwang,B.J., Muller,H.M. e Sternberg,P.W. (

2004

) Anotação do genoma por determinação final do RNA 5′ de alto rendimento.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) O Banco de Dados de Proteínas.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) O kit de ferramentas Bioperl: Módulos Perl para as ciências da vida.

Res.

,

12

,

1611

-1618.

Dowell,R.D.,Jokerst,R.M.,Day,A.,Eddy,S.R. e Stein,L. (

2001

) O sistema de anotação distribuído.

BMC Bioinformática

,

2

,

7

.

Stein,L.D. e Thierry-Mieg,J. (

>

1998

) Acesso por Scriptable à sequência do genoma Caenorhabditis elegans e outras bases de dados ACEDB.

Res.Genome

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. e Gish,W. (

2003

) WU-Blast2 server at the European Bioinformatics Institute.

Ácidos nucléicos Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-a ferramenta de alinhamento do tipo BLAST.

Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Mapeamento sequencial por PCR electrónica.

Res.

,

7

,

541

-550.

Muller,H.M.,Kenny,E. e Sternberg,P. (

>2004

) Testpresso: um sistema de recuperação e extração de informação baseado em ontologia para a literatura de C. elegans.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R.,Wenick,A.S.,Wong,A. e Hobert,O. (

2004

) CisOrtho: um programa pipeline para identificação de genes alvo do fator de transcrição em todo o genoma usando a pegada filogenética.

BMC Bioinformática

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: um editor de anotações de sequência.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) O genoma genoma genome browser: um bloco de construção para uma base de dados do sistema do organismo modelo.

Res.

,

12

,

1599

-1610.

FlyBase (

2003

) O banco de dados FlyBase dos projetos do genoma Drosophila e da literatura comunitária.

Ácidos nucléicos Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) fornece ferramentas para identificar e analisar sequências de Saccharomyces cerevisiae e sequências relacionadas de outros organismos.

Ácidos nucléicos Res.

,

32

(Edição da base de dados),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Ácidos nucléicos Res.

,

32

(Edição da base de dados),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): mapeamento da doença no genoma.

Ácidos nucléicos Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) A Base de Dados do Genoma do Rato (MGD): integrando a biologia com o genoma.

Ácidos Nucleicos Res.

,

32

(Edição da base de dados),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. e Birney,E. (

2004

) EnsMart: um sistema genérico para acesso rápido e flexível a dados biológicos.

Res.

,

14

,

160

-169.

Krieger,C.J.,Zhang,P.,Mueller,L.A.,Wang,A.,Paley,S.,Arnaud,M., Pick,J., Rhee,S.Y. e Karp,P.D. (

2004

) MetaCyc: uma base de dados multiorganismos de vias metabólicas e enzimas.

Ácidos Nucleicos Res.

,

32

(Edição da base de dados),

D438

-D442.

Notas do autor

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute e California Institute of Technology, Pasadena, CA, EUA, 2Genome Sequencing Center, Washington University, St Louis, MO, EUA, 3The Wellcome Trust Sanger Institute, Hinxton, UK e 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, EUA