Articles

WormBase: un recurso de datos exhaustivo para la biología y genómica de Caenorhabditis

Abstract

WormBase ( http://www.wormbase.org ), la base de datos de organismos modelo para la información sobre Caenorhabditis elegans y nematodos relacionados, continúa expandiéndose en amplitud y profundidad. En el último año, WormBase ha añadido múltiples conjuntos de datos a gran escala, incluyendo SAGE, interactoma, conjuntos de datos de estructura de proteínas en 3D y NCBI KOGs. Para dar cabida a este crecimiento, el Consorcio Internacional WormBase ha mejorado la interfaz de usuario añadiendo nuevas características para ayudar a la navegación, la visualización de conjuntos de datos a gran escala, la búsqueda avanzada y la minería de datos. Internamente, hemos reestructurado los modelos de la base de datos para racionalizar la representación de los genes y preparar el sistema para aceptar las secuencias del genoma de tres especies adicionales de Caenorhabditis durante el próximo año.

Recibido el 21 de agosto de 2004; revisado y aceptado el 5 de octubre de 2004

DESCRIPCIÓN

WormBase es la base de datos de organismos modelo para la biología y genómica de Caenorhabditis elegans y Caenorhabditis briggsae . Se trata de un recurso en rápida evolución, impulsado por el hecho de que C.elegans se utiliza ampliamente como organismo modelo para una variedad de temas de investigación biomédica, incluyendo el desarrollo, la neurociencia, la apoptosis y el envejecimiento ( 1 – 4 ), y se dispone de una gama cada vez más amplia de datos de alto rendimiento para él. La secuencia del genoma de C.elegans ( 5 ) ha impulsado proyectos de investigación de todo el genoma, como el ORFeome ( 6 ), el ARN de interferencia (ARNi) ( 7 ), el microarray ( 8 ), el interactoma (interacciones proteína-proteína de todo el genoma) ( 9 ), el análisis en serie de la expresión génica (SAGE) ( 10 , 11 ) y otras técnicas de elaboración de perfiles de expresión génica ( 11 ). Estos conjuntos de datos a gran escala han enriquecido enormemente el contenido de WormBase ( 2 , 3 ). Más recientemente, la disponibilidad de la secuencia completa del genoma de C.briggsae ( 12 ), además de la de C.elegans , ha establecido WormBase como una plataforma para la genómica comparativa entre el género Caenorhabditides ( 13 ).

El Consorcio Internacional WormBase, formado por más de 30 científicos de cuatro instituciones ( http://wormbase.org/about/people.html ), recopila y anota conjuntos de datos a gran y pequeña escala de C.elegans , C.briggsae y nematodos relacionados, los organiza en una única base de datos pública y los pone a disposición para su consulta y descarga en el sitio web de WormBase. Además de adquirir los datos depositados directamente mediante el enlace con la comunidad investigadora, el consorcio revisa y extrae los datos de toda la literatura publicada sobre Caenorhabditis. Cada dos semanas se publican nuevas versiones de la base de datos, lo que garantiza que los conjuntos de datos nuevos y actualizados estén disponibles para la comunidad en el momento oportuno. Este artículo revisa los recientes avances en el contenido de WormBase y las mejoras en la interfaz de usuario, explica cómo está evolucionando WormBase y discute los diferentes métodos de acceso a los datos. El documento termina con una discusión de las nuevas características previstas para el próximo año.

Adiciones recientes a los contenidos de WormBase

Durante el último año hemos aumentado considerablemente el tamaño de algunos conjuntos de datos existentes. Por ejemplo, hay un aumento de 5 veces en los puntos de datos de microarrays y un aumento dramático de 13 veces en los experimentos de microarrays, de 8 experimentos (reportados en 2 artículos) a 113 experimentos (reportados en 15 artículos). El número de experimentos de RNAi que producen un fenotipo de tipo no salvaje también se ha duplicado en el último año.

Seguimos refinando los modelos de genes de C.elegans sobre la base de los nuevos datos que aparecen en la literatura, de los nuevos datos de secuencias en las bases de datos públicas de nucleótidos (GenBank/EMBL/DDBJ) y de las comunicaciones personales de la comunidad de Worm. La mayor parte de la actividad de curación consiste en refinar la estructura de los modelos genéticos existentes. Sin embargo, también seguimos eliminando las predicciones de genes que ya no son válidas (por ejemplo, los marcos de lectura abiertos muy cortos) y añadimos continuamente nuevas predicciones de genes cuando es necesario (normalmente correspondientes a nuevas isoformas de un gen existente). A pesar del gran número de genes creados y eliminados, el recuento total de genes (para los genes codificadores de proteínas) sólo ha experimentado un pequeño aumento neto (+22 genes) a lo largo del año. En cambio, la proporción de genes codificadores de proteínas confirmados por datos de transcripción (es decir, cuando cada exón codificante tiene soporte de transcripción) ha aumentado en un 20% (de 4.663 a 5.569) durante el mismo periodo. Esto se debe a la disponibilidad de más datos de transcripción y al trabajo de los conservadores para perfeccionar los modelos de genes para que se ajusten mejor a los datos de transcripción disponibles. También hemos mejorado mucho los métodos con los que se mapean los transcritos en el genoma y se conectan a los modelos de genes.

Durante el mismo período, WormBase ha añadido varios conjuntos de datos experimentales y teóricos a gran escala. Las adiciones notables incluyen conjuntos de datos SAGE a gran escala ( 10 , 11 ), el conjunto de datos interactome ( 9 ), datos estructurales 3D y el Centro Nacional de Información Biotecnológica (NCBI) KOGs ( 14 ) conjunto de grupos ortólogos predichos. Recientemente, se ha utilizado la técnica recientemente desarrollada de determinación del extremo del ARN acoplado al exón trans (TEC-RED) para analizar los extremos 5′ de los genes expresados en C.elegans ( 15 ) y el conjunto de datos está siendo comisariado e introducido en WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) es una técnica sensible para ensayar los niveles de expresión génica en todo el genoma que proporciona un buen complemento a las técnicas basadas en microarrays. A partir de la versión WS123, WormBase incorpora los resultados de 12 bibliotecas SAGE, dos de las cuales han sido publicadas previamente ( 10 ). Las 12 bibliotecas cubren varios estadios de desarrollo ( 11 ) desde el embrión hasta el adulto y tocan 20 417 genes (secuencias codificantes, WS129) correspondientes al 91,9% de todos los genes anotados en el genoma de C.elegans en WormBase (22 213 incluyendo secuencias codificantes empalmadas alternativamente, WS129). Las etiquetas SAGE correspondientes a un gen se pueden encontrar en la parte inferior de la página de genes de WormBase (por ejemplo, http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) y están vinculadas a la información que detalla la abundancia de la etiqueta SAGE en varias etapas de la vida en una nueva página de informe SAGE ( Figura 1 ).

Figura 1.

Página del informe SAGE.

Figura 1.

Página del informe SAGE.

Interactoma

Diseccionar la red de interacciones de una proteína es a menudo una clave para entender su papel biológico. WormBase incluye los resultados del «Proyecto Interactoma», un cribado a gran escala basado en la técnica de dos híbridos de levadura (Y2H) ( 9 ). En el conjunto de datos actual, los cebos están sesgados hacia genes homólogos a los humanos, de funciones multicelulares (genes con homólogos en organismos multicelulares como Drosophila melanogaster , Homo sapiens y Arabidopsis thaliana pero no en Saccharomyces cerevisiae ), o que tienen un papel conocido en la mitosis y la meiosis. Actualmente, WormBase incluye 5534 interacciones que cubren el 15% del proteoma de C.elegans. Los usuarios pueden ver estas interacciones desde la página de resumen de genes.

Estructuras tridimensionales de proteínas

Este pequeño pero importante conjunto de datos procede del Consorcio de Genómica Estructural del Noreste ( http://www.nesg.org ), cuyo objetivo es producir 340 objetivos de C.elegans. Los objetivos principales del Consorcio se centran en proteínas de organismos modelo eucariotas, incluyendo S.cerevisiae y D.melanogaster, además de C.elegans . Actualmente, se han depositado las estructuras de seis proteínas en el Banco de Datos de Proteínas (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). La información detallada sobre el estado de estas 340 dianas de C.elegans se ha incluido en la WormBase y se actualizará regularmente.

NCBI KOGs

Los KOGs son una versión específica para eucariotas de los Grupos Ortólogos Conservados ideados originalmente en el NCBI para los genomas microbianos ( 14 ). Los KOGs están definidos por un triángulo de mejores resultados recíprocos de BLASTP entre dominios de proteínas eucariotas de especies altamente divergentes ( 14 ). Durante el último año, WormBase ha incorporado estas anotaciones KOG, junto con otros grupos de homología ( 14 ). Actualmente, WormBase tiene 4852 KOGs, que incluyen el producto de 9427 genes codificadores de proteínas de C.elegans (es decir, el 48% de todos los genes codificadores de proteínas predichos en WS129).

Cambios en el modelo de datos internos y nuevos identificadores

La base de datos backend de WormBase es ACeDB ( http://www.acedb.org ) ( 4 ). Durante el último año, hemos cambiado la forma en que se representan varios tipos de datos en la base de datos. Estos cambios en el esquema de la base de datos no afectan a los usuarios habituales. Sin embargo, los usuarios avanzados que escriben scripts para acceder a WormBase deben conocerlos. Los cambios significativos en el modelo incluyen la introducción de una clase unificada Gene ( http://wormbase.org/db/misc/model?class=Gene ), que contiene toda la información relevante sobre un gen. Anteriormente, dicha información estaba dispersa entre varias clases interrelacionadas. Al mismo tiempo, hemos introducido las clases CDS y Transcript para gestionar mejor las relaciones entre los transcritos empalmados y sus productos, y hemos mejorado significativamente la derivación de las estructuras de los transcritos a partir de secuencias de ADNc y EST.

Junto a estos cambios hemos introducido identificadores anónimos estables para los genes, de la forma WBGene00006741, y para los artículos, de la forma WBPaper0005637, de la misma forma que los identificadores de persona de la forma WBPerson241. Estos identificadores rastrean los distintos nombres que se han utilizado para la entidad correspondiente y deben utilizarse siempre que sea posible para las referencias cruzadas de la base de datos. El sitio web admite URLs de la forma http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Las preguntas sobre los modelos de datos pueden dirigirse a [email protected] .

Mejoras de la interfaz de usuario

Mejoras del navegador del genoma de WormBase

El navegador del genoma es un componente central de WormBase que permite a los usuarios visualizar las estructuras de los modelos de genes y sus pruebas de apoyo, así como otras características como los polimorfismos de un solo nucleótido (SNP), los elementos repetitivos y los reactivos experimentales. En el último año, el navegador se ha mejorado de varias maneras: (i) soporte de gráficos vectoriales escalables ( SVG ) . Las imágenes del navegador del genoma de WormBase han sido ampliamente utilizadas en presentaciones e ilustraciones de publicaciones ( 2 , 3 , 17 ), pero su naturaleza de mapa de bits conduce a la degradación de la imagen cuando se imprime a alta resolución. Recientemente hemos añadido una función que permite a los usuarios de WormBase descargar las imágenes del navegador del genoma especificadas como archivos SVG ( http://www.w3.org/TR/SVG/ ), que pueden visualizarse, editarse e imprimirse en alta resolución utilizando software compatible con SVG, como Adobe Illustrator 10. (ii) Resaltado de características . Para ayudar a la localización y visualización de las características de interés, WormBase ahora resalta con un fondo amarillo la característica que los usuarios han encontrado en una búsqueda. Este cambio es especialmente útil cuando los usuarios navegan en ventanas de gran tamaño con las pistas múltiples activadas. (iii) Regiones no traducidas ( UTRs ). Tanto el modelo de datos interno como la presentación visual se han modificado para mostrar las secciones no traducidas de los transcritos, así como los empalmes internos que se producen dentro de las 5′- o 3′-UTRs. (iv) Más pistas de características , incluyendo SNPs, etiquetas SAGE, operón, sitios poly(A) y secuencias de señal predichas. (v) Soporte DAS . El navegador del genoma ahora puede ser utilizado como un visor de pistas del Sistema de Anotación Distribuida (DAS) ( 18 ), permitiendo a los usuarios superponer sus propias anotaciones en las pistas de WormBase.

Página de alineación de ESTs y página de alineación de proteínas

WormBase mantiene ahora alineaciones a nivel de nucleótidos de ESTs, cDNAs y otras secuencias tanto dentro como entre especies. Por ejemplo, la alineación entre los genomas de C.elegans y C.briggsae puede verse tanto en una vista de baja resolución que enfatiza la relación entre un grupo de genes colineales ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), o en una vista de alineación de texto de alta resolución que muestra las diferencias en nucleótidos individuales. Los ESTs y cDNAs de C.elegans y otros nematodos pueden verse en una vista de alineación múltiple que resalta los errores de alineación y los huecos ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

A nivel de proteínas, WormBase mantiene una lista de las mejores coincidencias de BLAST con los productos proteicos más largos de otras especies importantes, incluyendo el humano ( H.sapiens ), el ratón ( Mus musculus ), la rata ( Rattus norvegicus ), la mosca ( D.melanogaster ), la levadura ( S.cerevisiae ) y C.briggsae , que en conjunto pueden proporcionar información sobre la función de los genes relacionados. Todos los resultados de BLAST están hipervinculados a una entrada relevante en la base de datos del organismo modelo respectivo o a Swiss-Prot/TrEMBL, según corresponda. La pantalla de alineación múltiple destaca los residuos de aminoácidos conservados utilizando un código de colores basado en las propiedades químicas de los residuos ( Figura 2 ).

Figura 2.

Página de alineación de proteínas.

Figura 2.

Página de alineación de proteínas.

Mapa del sitio de WormBase y glosario de WormBase

En el último año, hemos añadido un mapa del sitio de WormBase ( http://wormbase.org/db/misc/site_map ) para proporcionar una visión general del creciente número de páginas web. Los usuarios pueden acceder a este mapa directamente desde el banner de navegación en la parte superior de cada página de WormBase. La página del mapa del sitio enumera todas las páginas de WormBase y ofrece a los usuarios diferentes vistas. Por ejemplo, los usuarios pueden elegir la «Vista detallada» para obtener una breve descripción de las páginas individuales antes de navegar por ellas. Y la ‘Vista alfabética’ enumera las páginas de búsqueda por orden alfabético. Recientemente, WormBase ha creado una página con un glosario ( http://dev.wormbase.org/db/misc/glossary ) que recoge las definiciones de los términos más comunes utilizados en el sitio.

WormBase COMO PLATAFORMA PARA LA EXTRACCIÓN DE DATOS

Como los biólogos llegan a hacer un uso más sofisticado de los conjuntos de datos a gran escala, hay una necesidad creciente de un recurso que es más que un repositorio de apuntar y hacer clic, sino que también proporciona herramientas de análisis y minería de datos. Esta sección describe brevemente las características existentes y recientemente introducidas que hacen que WormBase sea adecuado para la minería de datos.

Acceso y recuperación de WormBase

Hay cinco métodos diferentes para acceder a WormBase, cada uno de ellos adecuado para un conjunto diferente de propósitos. Los usuarios pueden elegir los métodos de acceso más adecuados según su experiencia y necesidades.

  • Navegación por el sitio web . Este es un enfoque de un elemento a la vez. Los usuarios de WormBase suelen entrar en WormBase desde la página principal, buscando el gen (u otros elementos) de interés en el cuadro de búsqueda. Alternativamente, los usuarios pueden abrir el mapa del sitio de WormBase haciendo clic en un enlace en el banner de navegación superior y entrar en una página web específica para la búsqueda, ya sea por secuencia (BLAST o BLAT) o por texto. Una vez que los usuarios encuentran su elemento de interés, pueden navegar por las páginas web relacionadas siguiendo los enlaces. La ventaja de trabajar con WormBase de esta manera es que los usuarios pueden obtener vistas detalladas e información sobre los elementos de interés.

  • Recuperación por lotes . Los usuarios de WormBase necesitan cada vez más obtener informes por lotes personalizados. Para responder a esta necesidad, WormBase ofrece dos páginas de búsqueda en la web: «Batch Genes» y «Batch Sequences» ( 2 ). La página «Batch Genes» permite a los usuarios recuperar todos los campos de datos genéticos de interés biológico, que van desde las identificaciones de bases de datos externas, hasta los motivos proteicos, los términos GO, las posiciones genómicas, los fenotipos y las secuencias de ADN y proteínas subyacentes. Esta página ofrece a los usuarios la opción de descargar los resultados en texto plano o en formato HTML, y proporciona una variedad de formas de seleccionar el conjunto de genes de interés. La página Batch Sequences es ideal para recuperar datos basados en la secuencia, como UTRs, intrones, elementos promotores putativos, etc. Por ejemplo, esta función puede utilizarse para generar archivos de secuencias consistentes en una longitud específica de la secuencia ascendente de un conjunto seleccionado de genes codificadores de proteínas. Se puede acceder fácilmente a ambas páginas desde el banner de navegación superior. La ventaja de este método de búsqueda es que devuelve resultados para un gran número de elementos (genes).

  • Búsqueda en lenguaje de consulta . Para los usuarios que se sientan cómodos con los lenguajes de consulta de la base de datos ACeDB y estén familiarizados con los modelos de la base de datos WormBase, las búsquedas con lenguajes de consulta representan un método rápido y versátil de buscar en WormBase. Existen dos páginas de búsqueda de lenguajes de consulta: una para el lenguaje de consulta de WormBase, el lenguaje de consulta original de ACeDB, y otra para AQL, el nuevo lenguaje de consulta de ACeDB que es más similar a SQL. Se puede acceder a estas páginas desde la página «Mapa del sitio» de WormBase. Para los usuarios que no estén familiarizados con los lenguajes de consulta ACeDB, las páginas de búsqueda proporcionan instrucciones y ejemplos de consultas. La mayor ventaja es que los usuarios pueden formular sofisticadas consultas ad hoc.

  • Descargas a granel . Los usuarios pueden descargar conjuntos de genes completos o incluso la propia base de datos. WormBase ofrece una serie de extractos de la base de datos en su sitio FTP, incluyendo coordenadas de genes y otras características, secuencias de proteínas, datos de empalme de genes e información de mapeo genético. El genoma completo y sus anotaciones están disponibles en un formato tabular que puede cargarse y consultarse con diversas bases de datos relacionales, como MySQL, PostgreSQL y Oracle. Para cada versión se proporciona una tabla que vincula los productos de PCR, como los que se utilizan para los experimentos de microarrays y RNAi, con los genes actualmente anotados. WormBase también proporciona la base de datos completa en el formato ACeDB. La ventaja de este método es que los usuarios no tienen que depender de Internet para recuperar los datos, por lo que su procesamiento no está limitado por el acceso a Internet. Los problemas asociados a este método son que los usuarios deben estar muy familiarizados con la naturaleza de los conjuntos de datos y los modelos de bases de datos.

  • Scripting . Para los usuarios más avanzados que conozcan la programación de scripts, WormBase proporciona un servidor de acceso abierto ‘aceserver’ (en http://aceserver.cshl.org ) para acceder directamente a la base de datos backend de WormBase ( 19 ). La página de instrucciones de minería de datos de WormBase proporciona a los investigadores detalles sobre cómo conectarse a estas bases de datos utilizando la interfaz de programación de aplicaciones Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), junto con un repositorio de scripts de Perl reutilizables. Los usuarios pueden ejecutar estos scripts en sus máquinas locales y utilizarlos como plantillas para personalizar sus propios scripts. La mayor ventaja de esto es que los usuarios pueden consultar, formatear y procesar los resultados de la búsqueda en la medida que deseen. Un inconveniente obvio es que los usuarios deben adquirir algunos conocimientos de programación. Sin embargo, esto es cada vez más popular entre los usuarios avanzados.

Herramientas especializadas de extracción de datos

Como plataforma de análisis de secuencias, WormBase ha puesto a disposición de los usuarios un gran número de herramientas de análisis de secuencias. Estas herramientas incluyen BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner y protein aligner. En el último año, dos nuevas herramientas de minería de datos, Textpresso ( http://www.textpresso.org ) ( 23 ), una herramienta de búsqueda de literatura, y CisOrtho ( 24 ), una herramienta de búsqueda comparativa de elementos cis, también han sido añadidas a WormBase. Textpresso es un motor de búsqueda de texto completo, que da a los investigadores la capacidad de buscar en el cuerpo de toda la literatura de WormBase, que incluye un porcentaje sustancial de la literatura de C.elegans y C.briggsae. Actualmente, la base de datos Textpresso contiene 19 985 documentos curados, de los cuales 4420 tienen textos completos. Estos documentos proceden de cuatro fuentes principales (i) Artículos del CGC . Se trata de artículos de revistas científicas mantenidas por el Centro de Genética de Caenorhabditis ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) Resúmenes de Reuniones de Gusanos; (iii) Resúmenes de la Gaceta de Criadores de Gusanos; y (iv) Varios . Estos son otros resúmenes que contienen datos sobre C.elegans y C.briggsae . Otra característica útil de Textpresso es que devuelve las frases que contienen las palabras clave, con enlaces a las páginas de los artículos de WormBase y de PubMed.

CisOrtho ( 24 ) funciona partiendo de un sitio de unión de consenso que se representa como una matriz de pesos. Identifica sitios potenciales en un genoma pre-filtrado y luego filtra aún más mediante la evaluación de la conservación del sitio putativo en el genoma de una especie relacionada, un proceso llamado huella filogenética. Se puede acceder a CisOrtho en http://www.wormbase.org/cisortho/ .

CONGELACIÓN DE LA BASE DE DATOS

En el pasado, la política de actualización quincenal de WormBase suponía un problema para los investigadores que publicaban resultados basados en la minería de WormBase, ya que cuando se publicaban sus resultados la versión de WormBase en la que basaban sus análisis había sido sustituida. Para ayudar a que estas investigaciones sean citables y reproducibles, hemos adoptado una nueva política en la que una de cada diez versiones de WormBase se convierte en una versión congelada. Las versiones congeladas están disponibles a perpetuidad en sitios de WormBase especialmente designados, llamados http://ws100.wormbase.org , http://ws110.wormbase.org y así sucesivamente. La primera congelación fue http://ws100.wormbase.org , publicada el 10 de mayo de 2003. La congelación más reciente es http://ws130.wormbase.org , publicada el 16 de agosto de 2004. Se anima a los investigadores a realizar análisis a gran escala sobre una versión congelada y a citar el número de la misma en sus publicaciones. Los punteros a todas las congelaciones se muestran en la página principal del sitio en vivo de WormBase.

COLABORACIÓN CON OTRAS BASES DE DATOS DE ORGANISMOS MODELO

WormBase forma parte del proyecto GMOD ( 25 , 26 ), una amplia colaboración entre las bases de datos de organismos modelo para desarrollar vocabularios comunes, modelos de datos, herramientas de software e interfaces de usuario aplicables a todas las bases de datos de la comunidad de organismos modelo. Como parte de este proyecto, WormBase proporciona enlaces basados en la similitud de secuencias entre sus páginas de genes y las páginas de genes de FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) y Reactome ( http://www.reactome.org ). Los enlaces a RGD ( 30 ) y MGD ( 31 ) están previstos.

Recientemente, el proyecto GMOD ha desarrollado una representación común de las características de la secuencia genómica conocida como la Ontología de la Secuencia ( http://song.sourceforge.net ), que facilita el intercambio de anotaciones genómicas entre los diversos MODs y fomenta el uso de herramientas comunes de análisis y visualización. Los participantes en el GMOD ya utilizan paquetes de software comunes en sus sitios web para visualizar las anotaciones genómicas, dibujar mapas genéticos y buscar en la literatura, y esta convergencia se potenciará en un futuro próximo a medida que los MODs avancen hacia una página de genes unificada.

DIRECCIONES FUTURAS

WormBase ha evolucionado desde ACeDB ( http://www.acedb.org ), a una base de datos que abarca la curación de la literatura y la biología de C.elegans ( 4 ), y recientemente a una base de datos que alberga la biología y los datos genómicos de múltiples especies de nematodos ( 2 , 3 ). WormBase sigue siendo un trabajo en curso. En cuanto a la interfaz de usuario, las futuras mejoras incluyen WormMart, que se basa en BioMart, un sistema avanzado de consulta y generación de informes desarrollado por primera vez para su uso con Ensembl ( 32 ). En cuanto a los datos, esperamos la secuenciación del genoma y la anotación de otras tres especies de nematodos ( http://genome.gov/page.cfm?pageID=10002154 ), lo que elevará a cinco el número de genomas de Caenorhabditis mantenidos por WormBase. A lo largo de 2005, WormBase tiene previsto introducir un explorador del metabolismo intermedio de los nematodos y de las vías biológicas de orden superior. El buscador de vías y el conjunto de datos subyacente se desarrollarán en colaboración con los proyectos Reactome y MetaCyc ( http://metacyc.org/ ) ( 33 ). Juntos proporcionarán un recurso sin precedentes para diseccionar elementos funcionales en los genomas de Caenorhabditis y proporcionarán valiosos conocimientos sobre la evolución y las adaptaciones biológicas de estos organismos.

El Consorcio WormBase continuará abordando las cuestiones planteadas por los usuarios de WormBase, manteniendo una interfaz de usuario sencilla y amigable al tiempo que añade más herramientas de búsqueda e investigación para permitir la evolución de WormBase desde un repositorio de datos a un recurso para que todos los biólogos lo utilicen con el fin de maximizar el valor de la investigación de organismos modelo en C.elegans y sus parientes.

Como siempre, son bienvenidos los comentarios, preguntas, correcciones y envíos de datos ( [email protected] ).

La versión online de este artículo ha sido publicada bajo un modelo de acceso abierto. Los usuarios tienen derecho a utilizar, reproducir, difundir o mostrar la versión de acceso abierto de este artículo para fines no comerciales siempre que: se atribuya la autoría original de forma adecuada y completa; se atribuya a la Revista y a Oxford University Press como lugar de publicación original con los detalles de citación correctos; si un artículo se reproduce o difunde posteriormente no en su totalidad sino sólo en parte o como una obra derivada, esto debe indicarse claramente. Para obtener permisos de reutilización comercial, póngase en contacto con [email protected] .

P.W.S. es investigador del Instituto Médico Howard Hughes. Agradecemos a Sheldon McKay y Kris Gunsalus la lectura crítica del manuscrito. WormBase cuenta con el apoyo de la subvención P41-HG02223 del Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos y del Consejo Británico de Investigación Médica.

Riddle,D.L., Blumenthal,T., Meyer,B.J. y Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: a multi-species resource for nematode biology and genomics.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: a cross-species database for comparative genomics.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. y Spieth,J. (

2001

) WormBase: acceso en red al genoma y la biología de Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Genome sequence of the nematode C.elegans : a platform for investigating biology.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. y Harris,T.W. (

2004

) WormBase como plataforma integrada para el ORFeome de C. elegans.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Análisis funcional sistemático del genoma de Caenorhabditis elegans mediante RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. y Davidson,G.S. (

2001

) A gene expression map for Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) Un mapa de la red del interactoma del metazoo C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. and Marra,M.A. (

2001

) Cambios en la expresión génica asociados a la detención del desarrollo y la longevidad en Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) La secuencia del genoma de Caenorhabditis briggsae : una plataforma para la genómica comparativa.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. y Sternberg,P.W. (

2003

) El borrador de la secuencia del genoma del nematodo Caenorhabditis briggsae , un compañero de C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) La base de datos COG: una versión actualizada incluye a los eucariotas.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genome annotation by high-throughput 5′ RNA end determination.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) The Bioperl toolkit: Módulos Perl para las ciencias de la vida.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. y Stein,L. (

2001

) El sistema de anotación distribuida.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. y Thierry-Mieg,J. (

1998

) Acceso mediante script a la secuencia del genoma de Caenorhabditis elegans y otras bases de datos ACEDB.

Genome Res.

,

8

,

1308

-1315.

López,R., Silventoinen,V., Robinson,S., Kibria,A. y Gish,W. (

2003

) Servidor WU-Blast2 en el Instituto Europeo de Bioinformática.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sequence mapping by electronic PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. y Sternberg,P. (

2004

) Testpresso: un sistema de recuperación y extracción de información basado en ontologías para la literatura de C. elegans.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. y Hobert,O. (

2004

) CisOrtho: a program pipeline for genome-wide identification of transcription factor target genes using phylogenetic footprinting.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: a sequence annotation editor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) El navegador genómico genérico: un bloque de construcción para una base de datos de sistemas de organismos modelo.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) La base de datos FlyBase de los proyectos del genoma de Drosophila y la literatura de la comunidad.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) proporciona herramientas para identificar y analizar secuencias de Saccharomyces cerevisiae y secuencias relacionadas de otros organismos.

Nucleic Acids Res.

,

32

(Database issue),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Base de datos del genoma de la rata (RGD): mapeo de la enfermedad en el genoma.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) La base de datos del genoma del ratón (MGD): integrando la biología con el genoma.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. y Birney,E. (

2004

) EnsMart: un sistema genérico para el acceso rápido y flexible a datos biológicos.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. y Karp,P.D. (

2004

) MetaCyc: una base de datos de rutas metabólicas y enzimas de múltiples organismos.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Notas de los autores

Laboratorio de Cold Spring Harbor, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Instituto Médico Howard Hughes e Instituto Tecnológico de California, Pasadena, CA, EE.UU., 2Genome Sequencing Center, Washington University, St Louis, MO, EE.UU., 3The Wellcome Trust Sanger Institute, Hinxton, UK and 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA