Articles

WormBase: una risorsa completa di dati per la biologia e la genomica del Caenorhabditis

Abstract

WormBase ( http://www.wormbase.org ), il database dell’organismo modello per informazioni sul Caenorhabditis elegans e sui nematodi correlati, continua ad espandersi in ampiezza e profondità. Nell’ultimo anno, WormBase ha aggiunto diversi set di dati su larga scala, tra cui SAGE, interactome, set di dati sulla struttura proteica 3D e NCBI KOGs. Per far fronte a questa crescita, l’International WormBase Consortium ha migliorato l’interfaccia utente aggiungendo nuove funzionalità per aiutare la navigazione, la visualizzazione di serie di dati su larga scala, la ricerca avanzata e il data mining. Internamente, abbiamo ristrutturato i modelli del database per razionalizzare la rappresentazione dei geni e per preparare il sistema ad accettare le sequenze del genoma di altre tre specie di Caenorhabditis nel corso del prossimo anno.

Ricevuto il 21 agosto 2004; rivisto e accettato il 5 ottobre 2004

DESCRIZIONE

WormBase è il database degli organismi modello per la biologia e la genomica di Caenorhabditis elegans e Caenorhabditis briggsae . Si tratta di una risorsa in rapida evoluzione, che è guidata dal fatto che C.elegans è ampiamente utilizzato come organismo modello per una varietà di argomenti di ricerca biomedica, tra cui lo sviluppo, le neuroscienze, l’apoptosi e l’invecchiamento ( 1 – 4 ), e una gamma sempre più ampia di dati high-throughput è disponibile per esso. La sequenza del genoma di C.elegans ( 5 ) ha dato impulso a progetti di ricerca a livello di genoma tra cui ORFeome ( 6 ), RNA interference (RNAi) ( 7 ), microarray ( 8 ), interactome (genome-wide protein-protein interactions) ( 9 ), serial analysis of gene expression (SAGE) ( 10 , 11 ) e altre tecniche di profiling di espressione genica ( 11 ). Questi set di dati su larga scala hanno arricchito enormemente il contenuto di WormBase ( 2 , 3 ). Più recentemente, la disponibilità dell’intera sequenza del genoma di C.briggsae ( 12 ), oltre a quella di C.elegans , ha stabilito WormBase come una piattaforma per la genomica comparativa tra il genere Caenorhabditides ( 13 ).

Il Consorzio Internazionale WormBase, composto da oltre 30 scienziati di quattro istituzioni ( http://wormbase.org/about/people.html ), raccoglie e annota set di dati su larga e piccola scala da C.elegans , C.briggsae e nematodi correlati, li organizza in un unico database pubblico, e li rende disponibili per la navigazione e il download sul sito web WormBase. Oltre ad acquisire direttamente i dati depositati attraverso il collegamento con la comunità di ricerca, il consorzio rivede ed estrae i dati dalla letteratura completa pubblicata su Caenorhabditis. Le nuove versioni del database sono rese disponibili ogni due settimane, assicurando che set di dati nuovi e aggiornati siano disponibili alla comunità in modo tempestivo. Questo documento esamina i recenti progressi nel contenuto di WormBase e i miglioramenti nell’interfaccia utente, spiega come WormBase si sta evolvendo e discute i diversi metodi di accesso ai dati. Il documento si chiude con una discussione sulle nuove caratteristiche previste per il prossimo anno.

Recenti aggiunte ai contenuti di WormBase

Nell’ultimo anno abbiamo aumentato notevolmente le dimensioni di alcuni set di dati esistenti. Per esempio, c’è un aumento di 5 volte dei punti dati microarray e un drammatico aumento di 13 volte degli esperimenti microarray, da 8 esperimenti (riportati in 2 articoli) a 113 esperimenti (riportati in 15 articoli). Il numero di esperimenti RNAi che producono un fenotipo non-wild-type è anche più che raddoppiato nell’ultimo anno.

Continuiamo a perfezionare i modelli genici di C.elegans sulla base di nuovi dati che appaiono in letteratura, da nuovi dati di sequenza nei database nucleotidici pubblici (GenBank/EMBL/DDBJ), e da comunicazioni personali dalla comunità Worm. La maggior parte dell’attività di curation riguarda il perfezionamento della struttura dei modelli genici esistenti. Tuttavia, continuiamo anche a rimuovere le predizioni dei geni che non sono più valide (ad esempio, cornici di lettura aperte molto corte) e aggiungiamo continuamente nuove predizioni di geni dove appropriato (di solito corrispondenti a nuove isoforme di un gene esistente). Nonostante un gran numero di geni creati e rimossi, il numero totale di geni (per i geni codificanti le proteine) ha visto solo un piccolo aumento netto (+22 geni) nel corso dell’anno. In contrasto con questo, la proporzione di geni codificanti le proteine che sono ora confermati da dati di trascrizione (cioè dove ogni esone codificante ha il supporto di trascrizione) è aumentato del 20% (da 4663 a 5569) nello stesso periodo. Questo è dovuto alla disponibilità di più dati di trascrizione e al lavoro dei curatori per perfezionare i modelli genici per adattarli meglio ai dati di trascrizione disponibili. Abbiamo anche migliorato notevolmente i metodi con cui le trascrizioni sono mappate sul genoma e collegate ai modelli genici.

Nello stesso periodo, WormBase ha aggiunto diversi nuovi set di dati sperimentali e teorici su larga scala. Le aggiunte degne di nota includono set di dati SAGE su larga scala ( 10 , 11 ), il set di dati interactome ( 9 ), dati strutturali 3D e il National Center for Biotechnology Information (NCBI) KOGs ( 14 ) set di gruppi ortologhi predetti. Recentemente, la tecnica di recente sviluppo trans -spliced exon coupled RNA end determination (TEC-RED) è stata utilizzata per testare le estremità 5′ dei geni espressi in C.elegans ( 15 ) e il dataset è stato curato e inserito in WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) è una tecnica sensibile per valutare i livelli di espressione genica a livello di genoma che fornisce un buon complemento alle tecniche basate su microarray. A partire dalla release WS123, WormBase incorpora i risultati di 12 librerie SAGE, due delle quali sono state pubblicate in precedenza ( 10 ). Le 12 librerie coprono vari stadi di sviluppo ( 11 ) dall’embrione all’adulto e toccano 20 417 geni (sequenze codificanti, WS129) corrispondenti al 91,9% di tutti i geni annotati nel genoma di C.elegans in WormBase (22 213 comprese le sequenze codificanti con splicing alternativo, WS129). SAGE tag corrispondenti a un gene può essere trovato nella parte inferiore della pagina del gene WormBase (ad esempio http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) e sono collegati alle informazioni che dettagliano l’abbondanza del tag SAGE in varie fasi della vita in una nuova pagina rapporto SAGE ( Figura 1 ).

Figura 1.

Pagina di rapporto SAGE.

Figura 1.

Pagina di rapporto SAGE.

Interactome

La dissezione della rete di interazione di una proteina è spesso una chiave per comprendere il suo ruolo biologico. WormBase include i risultati dell'”Interactome Project”, uno screening su larga scala basato sulla tecnica yeast two-hybrid (Y2H) ( 9 ). Nell’attuale set di dati, le esche sono orientate verso geni omologhi a geni umani, con funzioni multicellulari (geni con omologhi in organismi multicellulari tra cui Drosophila melanogaster, Homo sapiens e Arabidopsis thaliana ma non in Saccharomyces cerevisiae), o con un ruolo noto nella mitosi e meiosi. Attualmente, WormBase include 5534 interazioni che coprono il 15% del proteoma di C.elegans. Gli utenti possono visualizzare queste interazioni dalla pagina di riassunto dei geni.

Strutture tridimensionali delle proteine

Questo piccolo ma importante set di dati proviene dal Northeast Structural Genomics Consortium ( http://www.nesg.org ), che mira a produrre 340 obiettivi di C.elegans. Gli obiettivi primari del Consorzio si concentrano su proteine di organismi modello eucarioti tra cui S.cerevisiae e D.melanogaster oltre a C.elegans . Attualmente, le strutture di sei proteine sono state depositate nella Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Informazioni dettagliate sullo stato di questi 340 obiettivi di C.elegans sono state incluse nel WormBase e saranno regolarmente aggiornate.

NCBI KOGs

I KOGs sono una versione specifica per gli eucarioti dei Conserved Orthologous Groups originariamente ideati all’NCBI per i genomi microbici ( 14 ). I KOG sono definiti da un triangolo di reciproci migliori risultati BLASTP tra domini di proteine eucariote da specie altamente divergenti ( 14 ). Nell’ultimo anno, WormBase ha incorporato queste annotazioni KOG, insieme ad altri gruppi di omologia ( 14 ). Attualmente, WormBase contiene 4852 KOG, che include il prodotto di 9427 geni codificanti proteine di C.elegans (cioè il 48% di tutti i geni codificanti proteine previsti in WS129).

Cambiamenti del modello di dati interni e nuovi identificatori

Il database backend di WormBase è ACeDB ( http://www.acedb.org ) ( 4 ). Durante l’ultimo anno, abbiamo cambiato il modo in cui alcuni tipi di dati sono rappresentati nel database. Questi cambiamenti allo schema del database non influenzano gli utenti abituali. Tuttavia, gli utenti avanzati che scrivono script per accedere a WormBase devono esserne consapevoli. I cambiamenti significativi al modello includono l’introduzione di una classe Gene unificata ( http://wormbase.org/db/misc/model?class=Gene ), che contiene tutte le informazioni rilevanti su un gene. In precedenza, tali informazioni erano sparse tra diverse classi correlate. Allo stesso tempo abbiamo introdotto le classi CDS e Transcript per gestire meglio le relazioni tra le trascrizioni spliced e i loro prodotti, e abbiamo migliorato significativamente la derivazione delle strutture di trascrizione dalle sequenze cDNA ed EST.

Accanto a questi cambiamenti abbiamo introdotto degli identificatori anonimi stabili per i geni, della forma WBGene00006741, e per i documenti, della forma WBPaper0005637, nella stessa forma degli identificatori di persone della forma WBPerson241. Questi identificatori rintracciano i vari nomi che sono stati usati per l’entità corrispondente e dovrebbero essere usati dove possibile per i riferimenti incrociati dei database. Il sito web supporta URL della forma http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Le domande sui modelli di dati possono essere indirizzate a [email protected] .

Miglioramenti all’interfaccia utente

Miglioramenti al browser del genoma di WormBase

Il browser del genoma è un componente centrale di WormBase che permette agli utenti di visualizzare le strutture dei modelli genici e le loro prove di supporto, così come altre caratteristiche come i polimorfismi a singolo nucleotide (SNPs), elementi ripetitivi e reagenti sperimentali. Nell’ultimo anno, il browser è stato migliorato in diversi modi: (i) supporto alla grafica vettoriale scalabile ( SVG ). Le immagini del browser del genoma di WormBase sono state ampiamente utilizzate nelle presentazioni e nelle illustrazioni delle pubblicazioni ( 2 , 3 , 17 ), ma la loro natura bitmap porta alla degradazione dell’immagine quando viene stampata ad alta risoluzione. Abbiamo recentemente aggiunto una funzione che permette agli utenti di WormBase di scaricare le immagini del browser del genoma specificate come file SVG ( http://www.w3.org/TR/SVG/ ), che possono essere visualizzate, modificate e stampate ad alta risoluzione utilizzando software compatibile con SVG come Adobe Illustrator 10. (ii) Evidenziazione delle caratteristiche. Per aiutare la localizzazione e la visualizzazione delle caratteristiche di interesse, WormBase ora evidenzia con uno sfondo giallo la caratteristica che gli utenti hanno trovato in una ricerca. Questo cambiamento è particolarmente utile quando gli utenti navigano in finestre di grandi dimensioni con tracce multiple attivate. (iii) Regioni non tradotte (UTR). Sia il modello interno dei dati che la visualizzazione sono stati modificati per mostrare le sezioni non tradotte delle trascrizioni, così come gli splices interni che si verificano all’interno delle 5′- o 3′-UTR. (iv) Più tracce di caratteristiche, compresi SNPs, tag SAGE, operone, siti poly(A) e sequenze di segnale previste. (v) Supporto DAS. Il browser del genoma può ora essere utilizzato come visualizzatore per le tracce del Distributed Annotation System (DAS) ( 18 ), permettendo agli utenti di sovrapporre le proprie annotazioni alle tracce di WormBase.

Pagina di allineamento degli EST e pagina di allineamento delle proteine

WormBase ora mantiene allineamenti a livello di nucleotide di EST, cDNA e altre sequenze sia all’interno che tra le specie. Per esempio, l’allineamento tra i genomi di C.elegans e C.briggsae può essere visualizzato sia in una vista a bassa risoluzione che enfatizza la relazione tra un gruppo di geni colineari ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), o in una vista di allineamento di testo ad alta risoluzione che mostra le differenze nei singoli nucleotidi. Gli EST e i cDNA di C.elegans e di altri nematodi possono essere visualizzati in una vista di allineamento multiplo che evidenzia allineamenti errati e lacune ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

A livello proteico, WormBase mantiene una lista delle migliori corrispondenze BLAST con i prodotti proteici più lunghi di altre importanti specie tra cui l’uomo (H.sapiens), il topo (Mus musculus), il ratto (Rattus norvegicus), la mosca (D.melanogaster), il lievito (S.cerevisiae) e C.briggsae, che insieme possono fornire informazioni sulla funzione dei geni correlati. Tutti i risultati BLAST sono collegati ad una voce pertinente nel rispettivo database dell’organismo modello o a Swiss-Prot/TrEMBL come appropriato. La visualizzazione dell’allineamento multiplo evidenzia i residui aminoacidici conservati utilizzando un codice colore basato sulle proprietà chimiche dei residui (Figura 2).

Figura 2.

Pagina di allineamento delle proteine.

Mappa del sito WormBase e glossario WormBase

Nell’ultimo anno, abbiamo aggiunto una mappa del sito WormBase ( http://wormbase.org/db/misc/site_map ) per fornire una panoramica del crescente numero di pagine web. Gli utenti possono accedere a questa mappa direttamente dal banner di navigazione in cima ad ogni pagina di WormBase. La pagina della mappa del sito elenca tutte le pagine di WormBase e fornisce agli utenti diverse visualizzazioni. Per esempio, gli utenti possono scegliere ‘Detailed View’ per avere una breve panoramica delle singole pagine prima di sfogliarle. E ‘Alphabetical View’ elenca le pagine di ricerca in ordine alfabetico. Recentemente, WormBase ha creato una pagina di glossario ( http://dev.wormbase.org/db/misc/glossary ) che elenca le definizioni dei termini comuni usati in tutto il sito.

WormBase COME PIATTAFORMA PER IL DATA MINING

Come i biologi arrivano a fare un uso più sofisticato di insiemi di dati su larga scala, c’è un crescente bisogno di una risorsa che sia più di un archivio point-and-click ma che fornisca anche strumenti di analisi ed estrazione dei dati. Questa sezione descrive brevemente le caratteristiche esistenti e quelle recentemente introdotte che rendono WormBase adatto al data mining.

Accesso e recupero di WormBase

Ci sono cinque diversi metodi per accedere a WormBase, ognuno dei quali è adatto a un diverso insieme di scopi. Gli utenti possono scegliere i metodi di accesso più appropriati in base alla loro esperienza e ai loro bisogni.

  • Consultazione del sito web. Si tratta di un approccio “una voce alla volta”. Gli utenti di WormBase tipicamente entrano in WormBase dalla prima pagina, cercando il gene (o altri elementi) di interesse nella casella di ricerca. In alternativa, gli utenti possono aprire la mappa del sito di WormBase cliccando su un link nel banner di navigazione superiore ed entrare in una pagina web specifica per la ricerca, sia per sequenza (BLAST o BLAT) che per testo. Una volta che gli utenti trovano il loro elemento di interesse, possono sfogliare le pagine web correlate seguendo i link. Il vantaggio di lavorare con WormBase in questo modo è che gli utenti possono ottenere viste dettagliate e informazioni sugli elementi di interesse.

  • Recupero batch . Gli utenti di WormBase hanno sempre più bisogno di ottenere rapporti batch personalizzati. Per rispondere a questa esigenza, WormBase fornisce due pagine di ricerca web: ‘Batch Genes’ e ‘Batch Sequences’ ( 2 ). La pagina Batch Genes permette agli utenti di recuperare tutti i campi di dati genici biologicamente interessanti, che vanno dagli ID di database esterni, ai motivi proteici, ai termini GO, alle posizioni genomiche, ai fenotipi e alle sequenze di DNA e proteine sottostanti. Questa pagina dà agli utenti la possibilità di scaricare i risultati in testo semplice o in formato HTML, e fornisce una varietà di modi per selezionare il set di geni di interesse. La pagina Batch Sequences è ideale per recuperare dati basati sulla sequenza come UTR, introni, elementi promotori putativi e così via. Per esempio, questa struttura può essere usata per generare file di sequenze che consistono di una lunghezza specifica di sequenza a monte di un insieme selezionato di geni codificanti proteine. Entrambe le pagine sono facilmente accessibili dal banner di navigazione superiore. Il vantaggio di questo metodo di ricerca è che restituisce risultati per un gran numero di elementi (geni).

  • Ricerca in linguaggio di interrogazione . Per gli utenti che hanno dimestichezza con i linguaggi di interrogazione del database ACeDB e familiarità con i modelli di database di WormBase, le ricerche in linguaggio di interrogazione rappresentano un metodo rapido e versatile di ricerca in WormBase. Sono disponibili due pagine di ricerca in linguaggio di interrogazione: una per il WormBase Query Language, il linguaggio di interrogazione originale di ACeDB, e un’altra per AQL, il nuovo linguaggio di interrogazione di ACeDB più simile a SQL. Queste pagine sono accessibili dalla pagina “Mappa del sito” di WormBase. Per gli utenti che non hanno familiarità con i linguaggi di ricerca ACeDB, le pagine di ricerca forniscono istruzioni ed esempi di query. Il vantaggio principale è che gli utenti possono formulare sofisticate query ad hoc.

  • Scaricamenti in blocco. Gli utenti possono scaricare interi set di geni o anche l’intero database stesso. WormBase fornisce una serie di estratti di database sul suo sito FTP, comprese le coordinate dei geni e altre caratteristiche, sequenze di proteine, dati di splicing genico e informazioni di mappatura genetica. L’intero genoma e le sue annotazioni sono disponibili in un formato tabulare che può essere caricato e interrogato con una varietà di database relazionali tra cui MySQL, PostgreSQL e Oracle. Per ogni versione viene fornita una tabella che collega i prodotti PCR come quelli usati per i microarray e gli esperimenti RNAi ai geni attualmente annotati. WormBase fornisce anche l’intero database nel formato ACeDB. Il vantaggio di questo metodo è che gli utenti non devono fare affidamento su Internet per il recupero dei dati, in modo che la loro elaborazione dei dati non sia limitata dall’accesso a Internet. I problemi associati a questo metodo sono che gli utenti devono avere molta familiarità con la natura dei set di dati e i modelli di database.

  • Scripting . Per gli utenti più avanzati che conoscono la programmazione di script, WormBase fornisce un server ad accesso aperto ‘aceserver’ (a http://aceserver.cshl.org) per l’accesso diretto al database backend WormBase ( 19 ). La pagina di istruzioni sul data mining di WormBase fornisce ai ricercatori i dettagli su come connettersi a questi database usando l’interfaccia di programmazione delle applicazioni Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), insieme a un archivio di script riutilizzabili in Perl. Gli utenti possono eseguire questi script sulle loro macchine locali e usarli come modelli per personalizzare i propri script. Il più grande vantaggio di questo è che gli utenti possono interrogare, formattare ed elaborare i risultati della ricerca nella misura che desiderano. Uno svantaggio ovvio è che gli utenti devono acquisire alcune competenze di programmazione. Tuttavia, questo sta diventando sempre più popolare tra gli utenti avanzati.

Strumenti di data mining specializzati

Come piattaforma di analisi di sequenza, WormBase ha messo a disposizione degli utenti un gran numero di strumenti di analisi di sequenza. Questi strumenti includono BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner e protein aligner. Nell’ultimo anno, sono stati aggiunti a WormBase anche due nuovi strumenti di data mining, Textpresso ( http://www.textpresso.org ) ( 23 ), uno strumento di ricerca nella letteratura, e CisOrtho ( 24 ), uno strumento di ricerca comparativa degli elementi cis. Textpresso è un motore di ricerca full text, che dà ai ricercatori la possibilità di cercare nel corpo di tutta la letteratura di WormBase, che include una percentuale sostanziale della letteratura su C.elegans e C.briggsae. Attualmente, il database Textpresso contiene 19 985 documenti curati, 4420 dei quali hanno testi completi. Questi documenti provengono da quattro fonti principali: (i) Documenti CGC. Questi sono articoli di riviste scientifiche mantenuti dal Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) abstracts di Worm Meetings ; (iii) abstracts di Worm Breeders Gazette ; e (iv) Miscellaneous . Questi sono vari altri abstracts contenenti dati su C.elegans e C.briggsae . Un’altra utile caratteristica di Textpresso è che restituisce le frasi che contengono le parole chiave, con collegamenti alle pagine di WormBase e alle pagine di PubMed.

CisOrtho ( 24 ) funziona partendo da un sito di legame di consenso che è rappresentato come una matrice di peso. Identifica potenziali siti in un genoma pre-filtrato e poi filtra ulteriormente valutando la conservazione del sito putativo nel genoma di una specie correlata, un processo chiamato footprinting filogenetico. CisOrtho è accessibile a http://www.wormbase.org/cisortho/ .

Congelamento del database

In passato, la politica di aggiornamento quindicinale di WormBase rappresentava un problema per i ricercatori che pubblicavano risultati basati sull’estrazione di WormBase, perché quando i loro risultati venivano pubblicati, la versione di WormBase su cui basavano le loro analisi era stata superata. Per aiutare a rendere tali ricerche citabili e riproducibili, abbiamo adottato una nuova politica per cui ogni decimo rilascio di WormBase diventa un rilascio congelato. Le release congelate sono disponibili in perpetuo su siti WormBase appositamente designati chiamati http://ws100.wormbase.org , http://ws110.wormbase.org e così via. Il primo freeze è stato http://ws100.wormbase.org , rilasciato il 10 maggio 2003. Il blocco più recente è http://ws130.wormbase.org , rilasciato il 16 agosto 2004. I ricercatori sono incoraggiati ad eseguire analisi su larga scala su una release congelata e a citare il numero di release nelle loro pubblicazioni. I puntatori a tutti i freeze sono visualizzati sulla pagina principale del sito live di WormBase.

COLABORAZIONI CON ALTRI BASI DI ORGANISMI MODELLO

WormBase fa parte del progetto GMOD ( 25 , 26 ), un’ampia collaborazione tra i database di organismi modello per sviluppare vocabolari comuni, modelli di dati, strumenti software e interfacce utente applicabili a tutti i database di comunità di organismi modello. Come parte di questo progetto, WormBase fornisce collegamenti basati sulla similarità di sequenza tra le sue pagine gene e le pagine gene di FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) e Reactome ( http://www.reactome.org ). Sono previsti collegamenti a RGD ( 30 ) e MGD ( 31 ).

Recentemente, il progetto GMOD ha sviluppato una rappresentazione comune delle caratteristiche della sequenza genomica nota come Sequence Ontology ( http://song.sourceforge.net ), che facilita lo scambio di annotazioni genomiche tra i vari MOD e incoraggia l’uso di strumenti di analisi e visualizzazione comuni. I partecipanti a GMOD stanno già utilizzando pacchetti software comuni sui loro siti web per visualizzare le annotazioni del genoma, disegnare mappe genetiche e cercare nella letteratura, e questa convergenza sarà rafforzata nel prossimo futuro, man mano che i MOD si muoveranno verso una pagina genica unificata.

DIRETTI FUTURI

WormBase si è evoluto da ACeDB ( http://www.acedb.org ), a un database che comprende la letteratura e la biologia di C.elegans ( 4 ), e recentemente a un database che ospita la biologia e i dati genomici di più specie di nematodi ( 2 , 3 ). WormBase è ancora un lavoro in corso. Sul fronte dell’interfaccia utente, i miglioramenti futuri includono WormMart, che è basato su BioMart, un sistema avanzato di query e generazione di report sviluppato inizialmente per l’uso con Ensembl ( 32 ). Sul fronte dei dati, siamo in attesa del sequenziamento del genoma e dell’annotazione di altre tre specie di nematodi ( http://genome.gov/page.cfm?pageID=10002154 ), portando a cinque il numero di genomi di Caenorhabditis mantenuti da WormBase. Nel corso del 2005, WormBase prevede di introdurre un browser per il metabolismo intermedio dei nematodi e percorsi biologici di ordine superiore. Il pathway browser e il sottostante dataset saranno sviluppati in collaborazione con i progetti Reactome e MetaCyc ( http://metacyc.org/ ) ( 33 ). Insieme questi forniranno una risorsa senza precedenti per la dissezione degli elementi funzionali nei genomi di Caenorhabditis e forniranno preziose intuizioni sull’evoluzione e gli adattamenti biologici di questi organismi.

Il Consorzio WormBase continuerà ad affrontare le questioni sollevate dagli utenti di WormBase, mantenendo un’interfaccia utente semplice e amichevole e aggiungendo ulteriori strumenti di ricerca per consentire l’evoluzione di WormBase da un archivio di dati a una risorsa che tutti i biologi possano utilizzare per massimizzare il valore della ricerca sugli organismi modello in C.elegans e i suoi parenti.

Come sempre, accogliamo commenti, domande, correzioni e invio di dati ( [email protected] ).

La versione online di questo articolo è stata pubblicata sotto un modello di accesso aperto. Gli utenti hanno il diritto di utilizzare, riprodurre, diffondere o mostrare la versione ad accesso aperto di questo articolo per scopi non commerciali a condizione che: la paternità originale sia correttamente e completamente attribuita; il Journal e la Oxford University Press siano attribuiti come luogo originale di pubblicazione con i dettagli di citazione corretti; se un articolo viene successivamente riprodotto o diffuso non nella sua interezza ma solo in parte o come opera derivata questo deve essere chiaramente indicato. Per permessi di riutilizzo commerciale, si prega di contattare [email protected] .

P.W.S. è un investigatore dell’Howard Hughes Medical Institute. Ringraziamo Sheldon McKay e Kris Gunsalus per la lettura critica del manoscritto. WormBase è supportato dalla sovvenzione P41-HG02223 dell’US National Human Genome Research Institute e dal British Medical Research Council.

Riddle,D.L., Blumenthal,T., Meyer,B.J. e Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: una risorsa multispecie per la biologia e la genomica dei nematodi.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: un database cross-specie per la genomica comparativa.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. e Spieth,J. (

2001

) WormBase: accesso in rete al genoma e alla biologia di Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Sequenza del genoma del nematode C.elegans: una piattaforma per lo studio della biologia.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Analisi funzionale sistematica del genoma di Caenorhabditis elegans utilizzando RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. e Davidson,G.S. (

2001

) Una mappa di espressione genica per Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) Una mappa della rete interactome del metazoo C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. e Marra,M.A. (

2001

) Cambiamenti nell’espressione genica associati all’arresto dello sviluppo e alla longevità in Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) La sequenza del genoma di Caenorhabditis briggsae: una piattaforma per la genomica comparativa.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. e Sternberg,P.W. (

2003

) Il progetto di sequenza del genoma del nematode Caenorhabditis briggsae , un compagno di C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) Il database COG: una versione aggiornata include gli eucarioti.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. e Sternberg,P.W. (

2004

) Annotazione del genoma tramite determinazione dell’estremità 5′ dell’RNA ad alta velocità.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) Il toolkit Bioperl: Moduli Perl per le scienze della vita.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. e Stein,L. (

2001

) Il sistema di annotazione distribuito.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. e Thierry-Mieg,J. (

1998

) Accesso scriptabile alla sequenza del genoma di Caenorhabditis elegans e altri database ACEDB.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. e Gish,W. (

2003

) WU-Blast2 server presso l’Istituto Europeo di Bioinformatica.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sequence mapping by electronic PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. e Sternberg,P. (

2004

) Testpresso: un sistema di estrazione e recupero delle informazioni basato sull’ontologia per la letteratura su C. elegans.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. e Hobert,O. (

2004

) CisOrtho: una pipeline di programma per l’identificazione genome-wide dei geni bersaglio dei fattori di trascrizione utilizzando footprinting filogenetico.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: un editor di annotazioni di sequenza.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) Il browser generico del genoma: un blocco di costruzione per un database di sistemi di organismi modello.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) Il database FlyBase dei progetti sul genoma di Drosophila e la letteratura della comunità.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) fornisce strumenti per identificare e analizzare sequenze da Saccharomyces cerevisiae e sequenze correlate da altri organismi.

Nucleic Acids Res.

,

32

(Database issue),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): mappatura della malattia sul genoma.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) The Mouse Genome Database (MGD): integrare la biologia con il genoma.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. e Birney,E. (

2004

) EnsMart: un sistema generico per un accesso veloce e flessibile ai dati biologici.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. and Karp,P.D. (

2004

) MetaCyc: a multiorganism database of metabolic pathways and enzymes.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Note degli autori

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute e California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK e 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA