WormBase : une ressource de données complète pour la biologie et la génomique de Caenorhabditis
Abstract
WormBase ( http://www.wormbase.org ), la base de données d’organismes modèles pour les informations sur Caenorhabditis elegans et les nématodes apparentés, continue de s’étendre en largeur et en profondeur. Au cours de l’année écoulée, WormBase a ajouté plusieurs ensembles de données à grande échelle, notamment SAGE, interactome, ensembles de données sur la structure des protéines en 3D et NCBI KOGs. Pour faire face à cette croissance, le Consortium international WormBase a amélioré l’interface utilisateur en ajoutant de nouvelles fonctionnalités pour faciliter la navigation, la visualisation des ensembles de données à grande échelle, la recherche avancée et l’exploration des données. En interne, nous avons restructuré les modèles de la base de données afin de rationaliser la représentation des gènes et de préparer le système à accepter les séquences génomiques de trois espèces supplémentaires de Caenorhabditis au cours de l’année à venir.
Reçu le 21 août 2004 ; Révisé et accepté le 5 octobre 2004
DESCRIPTION
WormBase est la base de données d’organismes modèles pour la biologie et la génomique de Caenorhabditis elegans et Caenorhabditis briggsae . Il s’agit d’une ressource en évolution rapide, qui est motivée par le fait que C.elegans est largement utilisé comme organisme modèle pour une variété de sujets de recherche biomédicale, y compris le développement, les neurosciences, l’apoptose et le vieillissement ( 1 – 4 ), et un éventail de plus en plus large de données à haut débit est disponible pour lui. La séquence du génome de C. elegans ( 5 ) a stimulé les projets de recherche sur l’ensemble du génome, y compris l’ORFeome ( 6 ), l’interférence ARN (ARNi) ( 7 ), les puces à ADN ( 8 ), l’interactome (interactions protéine-protéine à l’échelle du génome) ( 9 ), l’analyse en série de l’expression génétique (SAGE) ( 10 , 11 ) et d’autres techniques de profilage de l’expression génétique ( 11 ). Ces ensembles de données à grande échelle ont énormément enrichi le contenu de WormBase ( 2 , 3 ). Plus récemment, la disponibilité de la séquence complète du génome de C.briggsae ( 12 ), en plus de celle de C.elegans , a établi WormBase comme une plateforme de génomique comparative entre le genre Caenorhabditides ( 13 ).
Le Consortium international WormBase, composé de plus de 30 scientifiques de quatre institutions ( http://wormbase.org/about/people.html ), collecte et annote des ensembles de données à grande et petite échelle de C.elegans , C.briggsae et de nématodes apparentés, les organise dans une base de données publique unique et les rend disponibles pour la navigation et le téléchargement sur le site Web de WormBase. En plus d’acquérir des données directement déposées en liaison avec la communauté des chercheurs, le consortium examine et extrait les données de l’ensemble de la littérature publiée sur Caenorhabditis. Les nouvelles versions de la base de données sont disponibles toutes les deux semaines, ce qui garantit que les ensembles de données nouvelles et mises à jour sont disponibles pour la communauté en temps voulu. Cet article passe en revue les progrès récents du contenu de WormBase et les améliorations de l’interface utilisateur, explique comment WormBase évolue et discute des différentes méthodes d’accès aux données. Le document se termine par une discussion sur les nouvelles fonctionnalités prévues pour l’année à venir.
Ajouts récents au contenu de WormBase
Au cours de la dernière année, nous avons considérablement augmenté la taille de certains ensembles de données existants. Par exemple, le nombre de points de données de microarray a été multiplié par 5 et le nombre d’expériences de microarray a été multiplié par 13, passant de 8 expériences (rapportées dans 2 articles) à 113 expériences (rapportées dans 15 articles). Le nombre d’expériences ARNi produisant un phénotype non sauvage a également plus que doublé au cours de la dernière année.
Nous continuons à affiner les modèles génétiques de C.elegans sur la base de nouvelles données apparaissant dans la littérature, de nouvelles données de séquence dans les bases de données publiques de nucléotides (GenBank/EMBL/DDBJ), et de communications personnelles de la communauté Worm. La plupart des activités de curation consistent à raffiner la structure des modèles de gènes existants. Cependant, nous continuons également à supprimer les prédictions de gènes qui ne sont plus valides (par exemple, les cadres de lecture ouverts très courts) et nous ajoutons continuellement de nouvelles prédictions de gènes lorsque cela est approprié (correspondant généralement à de nouvelles isoformes d’un gène existant). Malgré le grand nombre de gènes créés et supprimés, le nombre total de gènes (pour les gènes codant pour des protéines) n’a connu qu’une faible augmentation nette (+22 gènes) au cours de l’année. En revanche, la proportion de gènes codant pour des protéines qui sont désormais confirmés par des données de transcription (c’est-à-dire pour lesquels chaque exon codant bénéficie d’un support de transcription) a augmenté de 20 % (de 4663 à 5569) au cours de la même période. Cette augmentation est due à la disponibilité d’un plus grand nombre de données de transcription et au travail des conservateurs pour affiner les modèles de gènes afin de mieux les adapter aux données de transcription disponibles. Nous avons également grandement amélioré les méthodes par lesquelles les transcriptions sont cartographiées sur le génome et connectées aux modèles de gènes.
Au cours de la même période, WormBase a ajouté plusieurs nouveaux ensembles de données expérimentales et théoriques à grande échelle. Parmi les ajouts notables, citons les ensembles de données SAGE à grande échelle ( 10 , 11 ), l’ensemble de données interactome ( 9 ), les données structurelles 3D et l’ensemble KOGs ( 14 ) du National Center for Biotechnology Information (NCBI) de groupes orthologues prédits. Récemment, la technique nouvellement développée de détermination de l’extrémité de l’ARN couplée à l’exon trans-épissé (TEC-RED) a été utilisée pour analyser les extrémités 5′ des gènes exprimés chez C.elegans ( 15 ) et l’ensemble de données est en cours de conservation et de saisie dans WormBase.
SAGE à l’échelle du génome
SAGE ( 10 , 11 ) est une technique sensible pour évaluer les niveaux d’expression génique à l’échelle du génome qui constitue un bon complément aux techniques basées sur les microréseaux. Depuis la version WS123, WormBase intègre les résultats de 12 bibliothèques SAGE, dont deux ont été publiées précédemment ( 10 ). Les 12 bibliothèques couvrent divers stades de développement ( 11 ), de l’embryon à l’adulte, et touchent 20 417 gènes (séquences codantes, WS129) correspondant à 91,9 % de tous les gènes annotés dans le génome de C.elegans dans WormBase (22 213 incluant les séquences codantes épissées alternativement, WS129). Les étiquettes SAGE correspondant à un gène peuvent être trouvées au bas de la page du gène de WormBase (par exemple http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) et sont liées à des informations détaillant l’abondance de l’étiquette SAGE à différents stades de vie dans une nouvelle page de rapport SAGE ( Figure 1 ).
Page de rapport SAGE.
Page de rapport SAGE.
Interactome
Disséquer le réseau d’interaction d’une protéine est souvent une clé pour comprendre son rôle biologique. WormBase inclut les résultats du » projet Interactome « , un crible à grande échelle basé sur la technique de la levure à deux hybrides (Y2H) ( 9 ). Dans l’ensemble de données actuel, les appâts sont orientés vers des gènes homologues à des gènes humains, ayant des fonctions multicellulaires (gènes ayant des homologues dans des organismes multicellulaires, y compris Drosophila melanogaster, Homo sapiens et Arabidopsis thaliana, mais pas dans Saccharomyces cerevisiae), ou ayant un rôle connu dans la mitose et la méiose. Actuellement, WormBase comprend 5534 interactions couvrant 15% du protéome de C.elegans. Les utilisateurs peuvent visualiser ces interactions à partir de la page de résumé des gènes.
Structures tridimensionnelles des protéines
Ce petit mais important ensemble de données provient du Northeast Structural Genomics Consortium ( http://www.nesg.org ), qui vise à produire 340 cibles de C.elegans. Les cibles primaires du Consortium se concentrent sur les protéines d’organismes modèles eucaryotes, dont S.cerevisiae et D.melanogaster, en plus de C.elegans. Actuellement, les structures de six protéines ont été déposées dans la banque de données sur les protéines (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Des informations détaillées sur le statut de ces 340 cibles de C.elegans ont été incluses dans la WormBase et seront régulièrement mises à jour.
NCBI KOGs
Les KOGs sont une version spécifique aux eucaryotes des Conserved Orthologous Groups initialement conçus au NCBI pour les génomes microbiens ( 14 ). Les KOG sont définis par un triangle des meilleurs résultats BLASTP réciproques entre des domaines de protéines eucaryotes provenant d’espèces très divergentes ( 14 ). Au cours de l’année dernière, WormBase a intégré ces annotations KOG, ainsi que d’autres groupes d’homologie ( 14 ). Actuellement, WormBase porte 4852 KOGs, ce qui inclut le produit de 9427 gènes codant pour des protéines de C.elegans (c’est-à-dire 48% de tous les gènes codant pour des protéines prédits dans WS129).
CHANGEMENTS DE MODÈLE DE DONNÉES INTERNE ET NOUVEAUX IDENTIFICATEURS
La base de données dorsale de WormBase est ACeDB ( http://www.acedb.org ) ( 4 ). Au cours de l’année dernière, nous avons modifié la façon dont un certain nombre de types de données sont représentés dans la base de données. Ces modifications du schéma de la base de données n’affectent pas les utilisateurs habituels. Cependant, les utilisateurs avancés qui écrivent des scripts pour accéder à WormBase doivent en être conscients. Les changements significatifs du modèle comprennent l’introduction d’une classe unifiée Gene ( http://wormbase.org/db/misc/model?class=Gene ), qui contient toutes les informations pertinentes sur un gène. Auparavant, ces informations étaient dispersées entre plusieurs classes interdépendantes. Dans le même temps, nous avons introduit les classes CDS et Transcript pour mieux gérer les relations entre les transcrits épissés et leurs produits, et nous avons considérablement amélioré la dérivation des structures de transcription à partir des séquences d’ADNc et d’EST.
Parallèlement à ces changements, nous avons introduit des identifiants anonymes stables pour les gènes, de la forme WBGene00006741, et pour les articles, de la forme WBPaper0005637, sous la même forme que les identifiants de personnes de la forme WBPerson241. Ces identificateurs permettent de suivre les différents noms qui ont été utilisés pour l’entité correspondante et doivent être utilisés dans la mesure du possible pour les références croisées des bases de données. Le site Web prend en charge les URL de la forme http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Les questions relatives aux modèles de données peuvent être adressées à [email protected] .
Améliorations de l’interface utilisateur
Améliorations du navigateur de génome de WormBase
Le navigateur de génome est une composante centrale de WormBase qui permet aux utilisateurs de visualiser les structures des modèles de gènes et leurs preuves à l’appui, ainsi que d’autres caractéristiques comme les polymorphismes nucléotidiques simples (SNP), les éléments répétitifs et les réactifs expérimentaux. Au cours de l’année dernière, le navigateur a été amélioré de plusieurs façons : (i) support des graphiques vectoriels évolutifs (SVG) . Les images du navigateur génomique de WormBase ont été largement utilisées dans les présentations et les illustrations de publications ( 2 , 3 , 17 ), mais leur nature bitmap entraîne une dégradation de l’image lorsqu’elle est imprimée à haute résolution. Nous avons récemment ajouté une fonction qui permet aux utilisateurs de WormBase de télécharger les images de l’explorateur de génomes spécifiées sous forme de fichiers SVG ( http://www.w3.org/TR/SVG/ ), qui peuvent être affichés, édités et imprimés à haute résolution à l’aide d’un logiciel compatible SVG tel que Adobe Illustrator 10. (ii) Mise en évidence des caractéristiques. Pour aider à la localisation et à la visualisation des caractéristiques d’intérêt, WormBase met maintenant en évidence avec un fond jaune la caractéristique que les utilisateurs ont trouvée dans une recherche. Ce changement est particulièrement utile lorsque les utilisateurs naviguent dans une fenêtre de grande taille avec des pistes multiples activées. (iii) Régions non traduites (UTR). Le modèle de données interne et l’affichage visuel ont été modifiés pour montrer les sections non traduites des transcriptions, ainsi que les épissures internes qui se produisent dans les régions 5′- ou 3′-UTR. (iv) Plus de pistes de caractéristiques, y compris les SNP, les étiquettes SAGE, les opérons, les sites poly(A) et les séquences de signal prédites. (v) Support DAS . Le navigateur du génome peut maintenant être utilisé comme visualiseur pour les pistes du système d’annotation distribué (DAS) ( 18 ), permettant aux utilisateurs de superposer leurs propres annotations sur les pistes de WormBase.
Page d’alignement des EST et page d’alignement des protéines
WormBase maintient maintenant des alignements au niveau des nucléotides des EST, des ADNc et d’autres séquences à la fois dans et entre les espèces. Par exemple, l’alignement entre les génomes de C.elegans et C.briggsae peut être visualisé à la fois dans une vue à basse résolution qui met l’accent sur la relation entre un groupe de gènes colinéaires ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), ou dans une vue d’alignement de texte à haute résolution qui montre les différences entre les nucléotides individuels. Les EST et les ADNc de C.elegans et d’autres nématodes peuvent être visualisés dans une vue d’alignement multiple qui met en évidence les mauvais alignements et les lacunes ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).
Au niveau des protéines, WormBase maintient une liste des meilleures correspondances BLAST avec les produits protéiques les plus longs d’autres espèces importantes, y compris l’homme ( H.sapiens ), la souris ( Mus musculus ), le rat ( Rattus norvegicus ), la mouche ( D.melanogaster ), la levure ( S.cerevisiae ) et C.briggsae , qui ensemble peuvent donner un aperçu de la fonction des gènes apparentés. Tous les résultats de BLAST sont liés par un hyperlien à une entrée pertinente dans la base de données de l’organisme modèle respectif ou à Swiss-Prot/TrEMBL, selon le cas. L’affichage des alignements multiples met en évidence les résidus d’acides aminés conservés à l’aide d’un code couleur basé sur les propriétés chimiques des résidus ( Figure 2 ).
Page d’alignement de protéines.
Page d’alignement de protéines.
Plan du site WormBase et glossaire WormBase
Au cours de l’année écoulée, nous avons ajouté un plan du site WormBase ( http://wormbase.org/db/misc/site_map ) afin de fournir un aperçu du nombre croissant de pages web. Les utilisateurs peuvent accéder à cette carte directement à partir de la bannière de navigation située en haut de chaque page de WormBase. La page du plan du site énumère toutes les pages de WormBase et offre aux utilisateurs différentes vues. Par exemple, les utilisateurs peuvent choisir la « Vue détaillée » pour obtenir un bref aperçu des pages individuelles avant de les parcourir. La « Vue alphabétique » présente les pages de recherche par ordre alphabétique. Récemment, WormBase a mis en place une page de glossaire ( http://dev.wormbase.org/db/misc/glossary ) qui répertorie les définitions des termes courants utilisés sur le site.
WormBase EN TANT QUE PLATE-FORME POUR L’EXTRACTION DE DONNÉES
Alors que les biologistes en viennent à faire une utilisation plus sophistiquée d’ensembles de données à grande échelle, il y a un besoin croissant pour une ressource qui est plus qu’un dépôt de type pointer-cliquer mais qui fournit également des outils d’analyse et d’extraction de données. Cette section décrit brièvement les caractéristiques existantes et récemment introduites qui font que WormBase convient à l’exploration de données.
Accès et récupération de WormBase
Il existe cinq méthodes différentes pour accéder à WormBase, chacune convenant à un ensemble différent d’objectifs. Les utilisateurs peuvent choisir les méthodes d’accès les plus appropriées en fonction de leur expérience et de leurs besoins.
-
La navigation sur le site web . Il s’agit d’une approche » un élément à la fois « . Les utilisateurs de WormBase entrent généralement dans WormBase à partir de la page d’accueil, en recherchant le gène (ou d’autres éléments) qui les intéresse dans la boîte de recherche. Ils peuvent également ouvrir le plan du site de WormBase en cliquant sur un lien dans la bannière de navigation supérieure et entrer dans une page Web spécifique pour effectuer une recherche, soit par séquence (BLAST ou BLAT), soit par texte. Une fois que les utilisateurs ont trouvé l’élément qui les intéresse, ils peuvent parcourir les pages Web connexes en suivant les liens. L’avantage de travailler avec WormBase de cette manière est que les utilisateurs peuvent obtenir des vues détaillées et des informations sur les éléments qui les intéressent.
-
L’extraction par lot . Les utilisateurs de WormBase ont de plus en plus besoin d’obtenir des rapports par lots personnalisés. Pour répondre à ce besoin, WormBase fournit deux pages de recherche web : ‘Batch Genes’ et ‘Batch Sequences’ ( 2 ). La page « Batch Genes » permet aux utilisateurs de récupérer tous les champs de données génétiques biologiquement intéressants, allant des identifiants de bases de données externes aux motifs protéiques, en passant par les termes GO, les positions génomiques, les phénotypes et les séquences d’ADN et de protéines sous-jacentes. Cette page offre aux utilisateurs la possibilité de télécharger les résultats en texte brut ou au format HTML, et propose plusieurs façons de sélectionner l’ensemble des gènes qui les intéressent. La page Séquences par lots est idéale pour récupérer des données basées sur les séquences telles que les UTR, les introns, les éléments promoteurs putatifs, etc. Par exemple, cette fonction peut être utilisée pour générer des fichiers de séquences composés d’une longueur spécifique de séquence en amont d’un ensemble sélectionné de gènes codant pour des protéines. Les deux pages sont facilement accessibles à partir du bandeau de navigation supérieur. L’avantage de cette méthode de recherche est qu’elle renvoie des résultats pour un grand nombre d’éléments (gènes).
-
Recherche en langage de requête . Pour les utilisateurs qui sont à l’aise avec les langages d’interrogation de la base de données ACeDB et qui connaissent les modèles de base de données WormBase, les recherches en langage d’interrogation représentent une méthode rapide et polyvalente de recherche dans WormBase. Deux pages de recherche par langage de requête sont disponibles : une pour le langage de requête WormBase, le langage de requête original d’ACeDB, et une autre pour AQL, le nouveau langage de requête d’ACeDB qui est plus similaire à SQL. Ces pages sont accessibles à partir de la page « Plan du site » de WormBase. Pour les utilisateurs qui ne sont pas familiers avec les langages de requête ACeDB, les pages de recherche fournissent des instructions et des exemples de requêtes. L’avantage majeur est que les utilisateurs peuvent formuler des requêtes ad hoc sophistiquées.
-
Téléchargements en vrac . Les utilisateurs peuvent télécharger des ensembles de gènes entiers ou même l’ensemble de la base de données elle-même. WormBase fournit un certain nombre d’extraits de base de données sur son site FTP, notamment les coordonnées des gènes et d’autres caractéristiques, les séquences de protéines, les données sur l’épissage des gènes et les informations sur la cartographie génétique. Le génome entier et ses annotations sont disponibles dans un format tabulaire qui peut être chargé et interrogé avec une variété de bases de données relationnelles, y compris MySQL, PostgreSQL et Oracle. Un tableau est fourni pour chaque version qui relie les produits PCR tels que ceux utilisés pour les microarrays et les expériences RNAi aux gènes actuellement annotés. WormBase fournit également l’ensemble de la base de données au format ACeDB. L’avantage de cette méthode est que les utilisateurs ne doivent pas compter sur Internet pour la récupération des données, de sorte que leur traitement des données n’est pas limité par l’accès à Internet. Les problèmes associés à cette méthode sont que les utilisateurs doivent être très familiers avec la nature des ensembles de données et des modèles de base de données.
-
Scripts . Pour les utilisateurs plus avancés qui connaissent la programmation de scripts, WormBase fournit un serveur à accès libre ‘aceserver’ (à http://aceserver.cshl.org) pour un accès direct à la base de données dorsale de WormBase ( 19 ). La page d’instruction sur l’extraction de données de WormBase fournit aux chercheurs des détails sur la façon de se connecter à ces bases de données en utilisant l’interface de programmation d’application Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), ainsi qu’un référentiel de scripts Perl réutilisables. Les utilisateurs peuvent exécuter ces scripts sur leurs machines locales et les utiliser comme modèles pour personnaliser leurs propres scripts. Le plus grand avantage de cette méthode est que les utilisateurs peuvent interroger, formater et traiter les résultats de la recherche comme ils le souhaitent. L’inconvénient évident est que les utilisateurs doivent acquérir certaines compétences en programmation. Cependant, cela devient de plus en plus populaire auprès des utilisateurs avancés.
Outils spécialisés d’exploration de données
En tant que plateforme d’analyse de séquences, WormBase a mis à la disposition des utilisateurs un grand nombre d’outils d’analyse de séquences. Ces outils comprennent BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner et protein aligner. Au cours de l’année écoulée, deux nouveaux outils d’exploration de données, Textpresso ( http://www.textpresso.org) ( 23 ), un outil de recherche documentaire, et CisOrtho ( 24 ), un outil de recherche comparative d’éléments cis, ont également été ajoutés à WormBase. Textpresso est un moteur de recherche en texte intégral qui donne aux chercheurs la possibilité d’effectuer des recherches dans le corps de toutes les publications de WormBase, ce qui inclut un pourcentage substantiel de la littérature sur C.elegans et C.briggsae. Actuellement, la base de données Textpresso contient 19 985 documents conservés, dont 4420 ont un texte intégral. Ces documents proviennent de quatre sources principales : (i) Les articles de la CCG . Il s’agit d’articles de journaux scientifiques maintenus par le Centre de génétique de Caenorhabditis ( http://biosci.umn.edu/CGC/CGChomepage.htm ) ; (ii) Résumés de réunions sur les vers ; (iii) Résumés de la Gazette des éleveurs de vers ; et (iv) Divers . Il s’agit de divers autres résumés contenant des données sur C.elegans et C.briggsae . Une autre fonctionnalité utile de Textpresso est qu’il retourne les phrases qui contiennent les mots clés, avec des liens vers les pages des articles de WormBase et les pages PubMed.
CisOrtho ( 24 ) fonctionne en partant d’un site de liaison consensus représenté sous forme de matrice de poids. Il identifie les sites potentiels dans un génome pré-filtré, puis filtre davantage en évaluant la conservation du site putatif dans le génome d’une espèce apparentée, un processus appelé empreinte phylogénétique. CisOrtho est accessible à l’adresse http://www.wormbase.org/cisortho/ .
GEL DE LA BASE DE DONNEES
Dans le passé, la politique de mise à jour bimensuelle de WormBase posait un problème aux chercheurs qui publiaient des résultats basés sur l’exploration de WormBase, car au moment où leurs résultats étaient publiés, la version de WormBase sur laquelle ils avaient basé leur analyse avait été remplacée. Pour aider à rendre ces recherches accessibles et reproductibles, nous avons adopté une nouvelle politique selon laquelle une version de WormBase sur dix devient une version gelée. Les versions gelées sont disponibles à perpétuité sur des sites WormBase spécialement désignés nommés http://ws100.wormbase.org , http://ws110.wormbase.org et ainsi de suite. La première version gelée a été http://ws100.wormbase.org , publiée le 10 mai 2003. Le gel le plus récent est http://ws130.wormbase.org , publié le 16 août 2004. Les chercheurs sont encouragés à effectuer des analyses à grande échelle sur une version gelée et à citer le numéro de la version dans leurs publications. Des pointeurs vers tous les gels sont affichés sur la page d’accueil du site live de WormBase.
COLLABORATIONS AVEC D’AUTRES BASES DE DONNEES D’ORGANISMES MODELES
WormBase fait partie du projet GMOD ( 25 , 26 ), une vaste collaboration entre les bases de données d’organismes modèles pour développer des vocabulaires communs, des modèles de données, des outils logiciels et des interfaces utilisateurs applicables à toutes les bases de données de la communauté des organismes modèles. Dans le cadre de ce projet, WormBase fournit des liens basés sur la similitude des séquences entre ses pages de gènes et les pages de gènes de FlyBase ( 27 ), de la base de données du génome de Saccharomyces ( 28 , 29 ), d’Ensembl ( 29 ) et de Reactome ( http://www.reactome.org ). Des liens vers RGD ( 30 ) et MGD ( 31 ) sont prévus.
Récemment, le projet GMOD a développé une représentation commune des caractéristiques des séquences génomiques connue sous le nom de Sequence Ontology ( http://song.sourceforge.net ), qui facilite l’échange d’annotations génomiques entre les différents MOD et encourage l’utilisation d’outils d’analyse et de visualisation communs. Les participants au GMOD utilisent déjà des progiciels communs sur leurs sites web pour visualiser les annotations génomiques, dessiner des cartes génétiques et effectuer des recherches dans la littérature, et cette convergence sera renforcée dans un avenir proche lorsque les MOD évolueront vers une page de gènes unifiée.
FUTURE DIRECTIONS
WormBase a évolué de l’ACeDB ( http://www.acedb.org ), à une base de données qui englobe la curation de la littérature et la biologie de C.elegans ( 4 ), et récemment à une base de données abritant la biologie et les données génomiques de multiples espèces de nématodes ( 2 , 3 ). WormBase est toujours en cours de réalisation. Sur le plan de l’interface utilisateur, les améliorations futures comprennent WormMart, qui est basé sur BioMart, un système avancé d’interrogation et de génération de rapports d’abord développé pour être utilisé avec Ensembl ( 32 ). En ce qui concerne les données, nous attendons avec impatience le séquençage et l’annotation du génome de trois autres espèces de nématodes ( http://genome.gov/page.cfm?pageID=10002154 ), ce qui portera à cinq le nombre de génomes de Caenorhabditis conservés par WormBase. En 2005, WormBase prévoit d’introduire un navigateur pour le métabolisme intermédiaire des nématodes et les voies biologiques d’ordre supérieur. Le navigateur de voies et le jeu de données sous-jacent seront développés en collaboration avec les projets Reactome et MetaCyc ( http://metacyc.org/ ) ( 33 ). Ensemble, ils constitueront une ressource inégalée pour disséquer les éléments fonctionnels des génomes de Caenorhabditis et fourniront des informations précieuses sur l’évolution et les adaptations biologiques de ces organismes.
Le Consortium WormBase continuera à traiter les questions soulevées par les utilisateurs de WormBase, en maintenant à la fois une interface utilisateur simple et conviviale tout en ajoutant d’autres outils de recherche et de recherche pour permettre l’évolution de WormBase d’un dépôt de données vers une ressource utilisable par tous les biologistes afin de maximiser la valeur de la recherche sur les organismes modèles de C.elegans et de ses apparentés.
Comme toujours, nous accueillons les commentaires, les questions, les corrections et les soumissions de données ( [email protected] ).
La version en ligne de cet article a été publiée sous un modèle d’accès libre. Les utilisateurs ont le droit d’utiliser, de reproduire, de diffuser ou d’afficher la version en libre accès de cet article à des fins non commerciales à condition que : la paternité de l’article original soit correctement et entièrement attribuée ; le Journal et Oxford University Press soient attribués comme lieu de publication original avec les détails de citation corrects donnés ; si un article est ultérieurement reproduit ou diffusé non pas dans son intégralité mais seulement en partie ou comme une œuvre dérivée, cela doit être clairement indiqué. Pour les autorisations de réutilisation commerciale, veuillez contacter [email protected] .
P.W.S. est un investigateur du Howard Hughes Medical Institute. Nous remercions Sheldon McKay et Kris Gunsalus pour la lecture critique du manuscrit. WormBase est soutenu par la subvention P41-HG02223 du US National Human Genome Research Institute et du British Medical Research Council.
Riddle,D.L., Blumenthal,T., Meyer,B.J. et Priess,J.R. (
) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.
Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (
) WormBase : une ressource multi-espèces pour la biologie et la génomique des nématodes.
,
(Database issue),
-D417.
Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (
) WormBase : une base de données inter-espèces pour la génomique comparative.
,
,
-137.
Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. et Spieth,J. (
) WormBase : accès en réseau au génome et à la biologie de Caenorhabditis elegans .
,
,
-86.
Le Consortium de séquençage de C.elegans (
) Séquence du génome du nématode C.elegans : une plateforme d’investigation en biologie.
,
,
-2018.
Chen,N., Lawson,D., Bradnam,K. et Harris,T.W. (
) WormBase comme plateforme intégrée pour le ORFeome de C. elegans.
,
-2161.
Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (
) Analyse fonctionnelle systématique du génome de Caenorhabditis elegans en utilisant l’ARNi.
,
,
-237.
Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. et Davidson,G.S. (
) Une carte d’expression génétique pour Caenorhabditis elegans .
,
,
-2092.
Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (
) Une carte du réseau interactome du métazoaire C. elegans .
,
,
-543.
Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. et Marra,M.A. (
) Changements dans l’expression des gènes associés à l’arrêt du développement et à la longévité chez Caenorhabditis elegans .
,
,
-1352.
McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (
) Symposiums de Cold Spring Harbor sur la biologie quantitative . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.
Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (
) La séquence du génome de Caenorhabditis briggsae : une plateforme pour la génomique comparative.
,
,
.
Gupta,B.P. et Sternberg,P.W. (
) Le projet de séquence du génome du nématode Caenorhabditis briggsae , un compagnon de C. elegans .
,
,
.
Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (
) La base de données COG : une version actualisée inclut les eucaryotes.
,
,
.
Hwang,B.J., Muller,H.M. et Sternberg,P.W. (
) Annotation du génome par détermination à haut débit de l’extrémité 5′ de l’ARN.
,
,
-1655.
Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (
) The Protein Data Bank.
,
,
-907.
Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (
) The Bioperl toolkit : Modules Perl pour les sciences de la vie.
,
,
-1618.
Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. et Stein,L. (
) Le système d’annotation distribué.
,
,
.
Stein,L.D. et Thierry-Mieg,J. (
) Accès scriptable à la séquence du génome de Caenorhabditis elegans et à d’autres bases de données ACEDB.
,
,
-1315.
Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. et Gish,W. (
) Serveur WU-Blast2 à l’Institut européen de bioinformatique.
,
,
-3798.
Kent,W.J. (
) BLAT-the BLAST-like alignment tool.
,
,
-664.
Schuler,G.D. (
) Cartographie des séquences par PCR électronique.
,
,
-550.
Muller,H.M., Kenny,E. et Sternberg,P. (
) Testpresso : un système de recherche et d’extraction d’information basé sur l’ontologie pour la littérature sur C. elegans.
,
,
.
Bigelow,H.R., Wenick,A.S., Wong,A. et Hobert,O. (
) CisOrtho : un pipeline de programme pour l’identification à l’échelle du génome des gènes cibles des facteurs de transcription en utilisant l’empreinte phylogénétique.
,
,
.
Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (
) Apollo : un éditeur d’annotation de séquence.
,
, RESEARCH0082.
Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (
) Le navigateur génomique générique : un bloc de construction pour une base de données de systèmes d’organismes modèles.
,
,
-1610.
FlyBase (
) La base de données FlyBase des projets de génome de la drosophile et de la littérature communautaire.
,
,
-175.
Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (
) La base de données du génome de Saccharomyces (SGD) fournit des outils pour identifier et analyser les séquences de Saccharomyces cerevisiae et les séquences apparentées d’autres organismes.
,
(numéro de la base de données),
-D314.
Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (
) Ensembl 2004.
,
(numéro de base de données),
-D470.
Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (
) Base de données du génome du rat (RGD) : cartographie des maladies sur le génome.
,
,
-128.
Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (
) La base de données du génome de la souris (MGD) : intégrer la biologie au génome.
,
(Database issue),
-D481.
Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. et Birney,E. (
) EnsMart : un système générique pour un accès rapide et flexible aux données biologiques.
,
,
-169.
Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. et Karp,P.D. (
) MetaCyc : une base de données multi-organismes de voies métaboliques et d’enzymes.
,
(Database issue),
-D442.
Notes des auteurs
Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute et California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK et 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA
.