Articles

WormBase: a comprehensive data resource for Caenorhabditis biology and genomics

Abstract

WormBase ( http://www.wormbase.org ), de modelorganisme-database voor informatie over Caenorhabditis elegans en verwante nematoden, blijft zich uitbreiden in breedte en diepte. In het afgelopen jaar heeft WormBase meerdere grootschalige datasets toegevoegd, waaronder SAGE, interactome, 3D-datasets voor eiwitstructuren en NCBI KOG’s. Om aan deze groei tegemoet te komen, heeft het Internationale WormBase Consortium de gebruikersinterface verbeterd door nieuwe functies toe te voegen voor navigatie, visualisatie van grootschalige datasets, geavanceerd zoeken en datamining. Intern hebben we de databasemodellen geherstructureerd om de weergave van genen te rationaliseren en om het systeem voor te bereiden op de acceptatie van de genoomsequenties van drie extra Caenorhabditis-soorten in het komende jaar.

Ontvangen op 21 augustus 2004; herzien en geaccepteerd op 5 oktober 2004

OMSCHRIJVING

WormBase is de modelorganisme-database voor de biologie en genomica van Caenorhabditis elegans en Caenorhabditis briggsae . Het is een snel evoluerende bron, die wordt gedreven door het feit dat C. elegans op grote schaal wordt gebruikt als modelorganisme voor een verscheidenheid van biomedische onderzoeksthema’s, met inbegrip van ontwikkeling, neurowetenschappen, apoptose en veroudering ( 1 – 4 ), en een steeds breder scala van high-throughput gegevens beschikbaar is voor het. De genoomsequentie van C. elegans ( 5 ) heeft een impuls gegeven aan genoombrede onderzoeksprojecten waaronder ORFeome ( 6 ), RNA-interferentie (RNAi) ( 7 ), microarray ( 8 ), interactome (genoombrede eiwit-eiwit interacties) ( 9 ), seriële analyse van genexpressie (SAGE) ( 10 , 11 ) en andere genexpressie profileringstechnieken ( 11 ). Deze grootschalige datasets hebben de inhoud van WormBase enorm verrijkt ( 2 , 3 ). Meer recent heeft de beschikbaarheid van de volledige genoomsequentie van C. briggsae ( 12 ), naast die van C. elegans , WormBase gevestigd als platform voor vergelijkende genomica onder het Caenorhabditides-geslacht ( 13 ).

Het Internationale WormBase Consortium, bestaande uit meer dan 30 wetenschappers van vier instellingen ( http://wormbase.org/about/people.html ), verzamelt en annoteert zowel groot- als kleinschalige datasets van C.elegans , C.briggsae en verwante nematoden, organiseert ze in een enkele openbare database, en maakt ze beschikbaar voor browsen en downloaden op de WormBase website. Naast het verkrijgen van rechtstreeks gedeponeerde gegevens via contacten met de onderzoeksgemeenschap, beoordeelt en extraheert het consortium gegevens uit de volledige gepubliceerde Caenorhabditis-literatuur. Nieuwe versies van de database worden om de twee weken beschikbaar gesteld, zodat de gemeenschap tijdig kan beschikken over nieuwe en bijgewerkte datasets. Dit artikel geeft een overzicht van recente vooruitgang in de inhoud van WormBase en verbeteringen in de gebruikersinterface, legt uit hoe WormBase evolueert en bespreekt verschillende methoden om toegang te krijgen tot de gegevens. Het document sluit af met een bespreking van de nieuwe functies die voor het komende jaar zijn gepland.

AANVULLENDE INHOUD VAN WormBase

In het afgelopen jaar hebben we de omvang van sommige bestaande datasets sterk vergroot. Er is bijvoorbeeld een 5-voudige toename in microarray datapunten en een dramatische 13-voudige toename in microarray experimenten, van 8 experimenten (gerapporteerd in 2 artikelen) tot 113 experimenten (gerapporteerd in 15 artikelen). Het aantal RNAi-experimenten dat een fenotype oplevert dat niet van het wilde type is, is het afgelopen jaar ook meer dan verdubbeld.

We blijven de genmodellen van C.elegans verfijnen op basis van nieuwe gegevens die verschijnen in de literatuur, van nieuwe sequentiegegevens in de openbare nucleotidendatabases (GenBank/EMBL/DDBJ), en van persoonlijke communicatie vanuit de wormgemeenschap. De meeste curatie-activiteiten betreffen het verfijnen van de structuur van bestaande genmodellen. We blijven echter ook genvoorspellingen verwijderen die niet langer geldig zijn (b.v. zeer korte open leesramen) en we voegen voortdurend nieuwe genvoorspellingen toe waar nodig (meestal corresponderend met nieuwe isovormen van een bestaand gen). Ondanks het grote aantal genen dat wordt gecreëerd en verwijderd, is het totale aantal genen (voor eiwit-coderende genen) in de loop van het jaar netto slechts licht gestegen (+22 genen). Daartegenover staat dat het aandeel van de eiwitcoderende genen die nu door transcriptgegevens worden bevestigd (d.w.z. waarbij elk coderend exon transcriptondersteuning heeft) in dezelfde periode met 20% is toegenomen (van 4663 tot 5569). Dit is te danken aan de beschikbaarheid van meer transcriptgegevens en het werk van curatoren om genmodellen te verfijnen zodat ze beter passen bij de beschikbare transcriptgegevens. We hebben ook de methoden waarmee transcripten op het genoom in kaart worden gebracht en aan genmodellen worden gekoppeld, sterk verbeterd.

In dezelfde periode heeft WormBase verschillende nieuwe grootschalige experimentele en theoretische datasets toegevoegd. Opmerkelijke toevoegingen zijn grootschalige SAGE datasets ( 10 , 11 ), de interactome dataset ( 9 ), 3D structurele gegevens en het National Center for Biotechnology Information (NCBI) KOGs ( 14 ) set van voorspelde orthologe groepen. Onlangs is de nieuw ontwikkelde techniek trans -spliced exon coupled RNA end determination (TEC-RED) gebruikt om de 5′-uiteinden van tot expressie gebrachte genen in C. elegans ( 15 ) te bepalen en de dataset wordt samengesteld en ingevoerd in WormBase.

Genoom-brede SAGE

SAGE ( 10 , 11 ) is een gevoelige techniek voor het bepalen van genoom-brede genexpressie niveaus die een goede aanvulling op microarray-gebaseerde technieken biedt. Met ingang van release WS123, WormBase bevat de resultaten van 12 SAGE bibliotheken, waarvan er twee eerder zijn gepubliceerd ( 10 ). De 12 bibliotheken bestrijken verschillende ontwikkelingsstadia ( 11 ) van embryo tot volwassene en raken 20 417 genen (coderende sequenties, WS129) overeenkomt met 91,9% van alle genen geannoteerd in het C. elegans genoom in WormBase (22 213 met inbegrip van alternatief gesplicte coderende sequenties, WS129). SAGE tags die overeenkomen met een gen zijn te vinden aan de onderkant van de WormBase gen pagina (bijv. http://www.wormbase.org/db/gene/gen?name=ced-3#Reagents ) en zijn gekoppeld aan informatie over de overvloed van de SAGE-tag in verschillende levensfasen in een nieuwe SAGE rapport pagina ( figuur 1 ).

Figuur 1.

SAGE-rapportpagina.

Figuur 1.

SAGE-rapportpagina.

Interactome

Het ontleden van het interactienetwerk van een eiwit is vaak een sleutel tot het begrijpen van de biologische rol ervan. WormBase bevat de resultaten van het “Interactome Project”, een grootschalige screening op basis van de techniek yeast two-hybrid (Y2H) ( 9 ). In de huidige dataset wordt de voorkeur gegeven aan genen die homoloog zijn met menselijke genen, een multicellulaire functie hebben (genen met homologe genen in multicellulaire organismen zoals Drosophila melanogaster, Homo sapiens en Arabidopsis thaliana, maar niet in Saccharomyces cerevisiae), of een bekende rol spelen in mitose en meiose. Momenteel bevat WormBase 5534 interacties die 15% van het C.elegans proteoom bestrijken. Gebruikers kunnen deze interacties bekijken vanaf de genen overzichtspagina.

Drie-dimensionale structuren van eiwitten

Deze kleine maar belangrijke dataset is van het Northeast Structural Genomics Consortium ( http://www.nesg.org ), dat streeft naar 340 C.elegans targets. De primaire doelen van het Consortium richten zich op eiwitten van eukaryotische modelorganismen, waaronder S. cerevisiae en D. melanogaster in aanvulling op C. elegans . Momenteel zijn structuren voor zes eiwitten gedeponeerd in de Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Gedetailleerde informatie over de status voor deze 340 C.elegans-targets is opgenomen in de WormBase en zal regelmatig worden bijgewerkt.

NCBI KOGs

KOGs zijn een eukaryote-specifieke versie van de Conserved Orthologous Groups oorspronkelijk bedacht bij het NCBI voor microbiële genomen ( 14 ). KOG’s worden gedefinieerd door een driehoek van wederzijdse beste BLASTP-hits tussen domeinen van eukaryote-eiwitten van sterk uiteenlopende soorten ( 14 ). In het afgelopen jaar heeft WormBase deze KOG annotaties opgenomen, samen met andere homologie groepen ( 14 ). Momenteel, WormBase draagt 4852 KOGs, die het product van 9427 C. elegans eiwit-coderende genen omvat (dat wil zeggen 48% van alle voorspelde eiwit-coderende genen in WS129).

INTERNE GEGEVENSMODEL WIJZIGINGEN EN NIEUWE IDENTIFIERS

De backend database van WormBase is ACeDB ( http://www.acedb.org ) ( 4 ). In het afgelopen jaar hebben we de manier veranderd waarop een aantal datatypes in de database worden weergegeven. Deze wijzigingen in het schema van de database hebben geen invloed op gewone gebruikers. Echter, gevorderde gebruikers die scripts schrijven om toegang te krijgen tot WormBase moeten hiervan op de hoogte zijn. Belangrijke modelveranderingen zijn onder andere de introductie van een verenigde Gen klasse ( http://wormbase.org/db/misc/model?class=Gene ), die alle relevante informatie over een gen bevat. Voorheen was deze informatie verspreid over verschillende onderling gerelateerde klassen. Tegelijkertijd hebben we CDS- en Transcript-klassen geïntroduceerd om de relaties tussen gesplitste transcripten en hun producten beter te beheren, en hebben we de afleiding van transcript-structuren uit cDNA- en EST-sequenties aanzienlijk verbeterd.

Naast deze veranderingen hebben we stabiele anonieme identifiers geïntroduceerd voor genen, van de vorm WBGene00006741, en voor papers, van de vorm WBPaper0005637, in dezelfde vorm als de persoons-identifiers van de vorm WBPerson241. Deze identifiers volgen de verschillende namen die voor de overeenkomstige entiteit zijn gebruikt en moeten waar mogelijk worden gebruikt voor kruisverwijzingen in databases. De website ondersteunt URL’s van de vorm http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Vragen over datamodellen kunnen worden gericht aan [email protected] .

VERBETERINGEN VAN DE GEBRUIKERS INTERFACE

Verbetering van de WormBase genoom-browser

De genoom-browser is een centraal onderdeel van WormBase dat gebruikers in staat stelt om gen-model structuren en hun ondersteunend bewijs te visualiseren, evenals andere kenmerken zoals single nucleotide polymorphisms (SNPs), repetitieve elementen en experimentele reagentia. In het afgelopen jaar is de browser op verschillende manieren verbeterd: (i) schaalbare vectorafbeeldingen ( SVG ) ondersteuning . WormBase genoom browser afbeeldingen zijn op grote schaal gebruikt in presentaties en publicatie illustraties ( 2 , 3 , 17 ), maar hun bitmapped aard leidt tot beeld degradatie wanneer afgedrukt op hoge resolutie. We hebben onlangs een faciliteit toegevoegd waarmee WormBase gebruikers gespecificeerde genoom browser afbeeldingen kunnen downloaden als SVG-bestanden ( http://www.w3.org/TR/SVG/ ), die kunnen worden weergegeven, bewerkt en afgedrukt op hoge resolutie met behulp van SVG-compatibele software, zoals Adobe Illustrator 10. (ii) Feature highlighting . Om te helpen bij het lokaliseren en visualiseren van interessante kenmerken, markeert WormBase nu met een gele achtergrond het kenmerk dat gebruikers hebben gevonden in een zoekopdracht. Deze verandering is vooral nuttig wanneer gebruikers bladeren in een groot venster met meerdere sporen ingeschakeld. (iii) Niet-vertaalde regio’s ( UTR’s ). Zowel het interne datamodel als de visuele weergave zijn nu aangepast om de niet-vertaalde delen van transcripten te tonen, evenals interne splices die voorkomen binnen de 5′- of 3′-UTRs. (iv) Meer feature tracks , inclusief SNPs, SAGE tags, operon, poly(A) sites en voorspelde signaal sequenties. (v) DAS-ondersteuning . De genoom browser kan nu worden gebruikt als een viewer voor Distributed Annotation System (DAS) ( 18 ) tracks, waardoor gebruikers hun eigen annotaties op WormBase tracks kunnen plaatsen.

EST uitlijning pagina en eiwit uitlijning pagina

WormBase onderhoudt nu nucleotide-niveau uitlijningen van EST’s, cDNA’s en andere sequenties zowel binnen als tussen soorten. Bijvoorbeeld, de uitlijning tussen de C.elegans en C.briggsae genomen kan worden bekeken in een lage-resolutie weergave die de relatie tussen een groep colineaire genen benadrukt ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), of in een hoge-resolutie tekst uitlijning weergave die verschillen in individuele nucleotiden laat zien. ESTs en cDNAs van C. elegans en andere nematoden kunnen worden bekeken in een meervoudige alignment view die misalignments en hiaten accentueert ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

Op eiwit niveau, onderhoudt WormBase een lijst van beste BLAST overeenkomsten met langste eiwit producten van andere belangrijke soorten, waaronder mens ( H.sapiens ), muis ( Mus musculus ), rat ( Rattus norvegicus ), vlieg ( D.melanogaster ), gist ( S.cerevisiae ) en C.briggsae , die samen inzicht kunnen geven in de functie van de gerelateerde genen. Alle BLAST resultaten zijn hyperlinked naar een relevante ingang in de respectievelijke model organisme database of naar Swiss-Prot/TrEMBL, zoals van toepassing. De meervoudige alignment display benadrukt geconserveerde aminozuur residuen met behulp van een kleurcode op basis van de chemische eigenschappen van de residuen ( figuur 2 ).

Figuur 2.

Proteïne-uitlijningspagina.

Figuur 2.

Proteïne-uitlijningspagina.

Proteïne-uitlijningspagina.

WormBase site map en WormBase glossary

In het afgelopen jaar hebben we een WormBase site map toegevoegd ( http://wormbase.org/db/misc/site_map ) om een overzicht te geven van het toenemende aantal webpagina’s. Gebruikers kunnen deze kaart rechtstreeks openen vanuit de navigatiebalk bovenaan elke WormBase pagina. De site map pagina geeft een overzicht van alle WormBase pagina’s en biedt gebruikers verschillende weergaven. Gebruikers kunnen bijvoorbeeld kiezen voor ‘Gedetailleerde weergave’ om korte overzichten te krijgen voor afzonderlijke pagina’s voordat ze de pagina’s doorbladeren. En ‘Alfabetische weergave’ geeft een overzicht van zoekpagina’s in alfabetische volgorde. Onlangs heeft WormBase een verklarende woordenlijstpagina ( http://dev.wormbase.org/db/misc/glossary ) gemaakt met definities van veelgebruikte termen op de site.

WormBase ALS PLATFORM VOOR GEGEVENSMINING

Naarmate biologen meer geavanceerd gebruik gaan maken van grootschalige datasets, is er een toenemende behoefte aan een bron die meer is dan een point-and-click opslagplaats, maar die ook tools biedt voor gegevensanalyse en -mining. Dit hoofdstuk beschrijft kort bestaande en recent geïntroduceerde kenmerken die WormBase geschikt maken voor datamining.

WormBase benaderen en ophalen

Er zijn vijf verschillende methoden om WormBase te benaderen, elk geschikt voor een andere reeks doeleinden. Gebruikers kunnen de meest geschikte toegangsmethode kiezen, afhankelijk van hun ervaring en behoeften.

  • Website browsing . Dit is een één-item-per-tijd benadering. WormBase gebruikers gaan gewoonlijk WormBase binnen vanaf de voorpagina, en zoeken het gen (of andere items) van interesse in de zoekbox. Als alternatief kunnen gebruikers de WormBase site map openen door te klikken op een link in de bovenste navigatiebalk en een specifieke webpagina openen om te zoeken, hetzij op sequentie (BLAST of BLAT) of op tekst. Zodra de gebruikers het gewenste item hebben gevonden, kunnen zij door gerelateerde webpagina’s bladeren door de links te volgen. Het voordeel van het werken met WormBase op deze manier is dat de gebruikers gedetailleerde weergaven en informatie kunnen krijgen over de items van hun interesse.

  • Batch opvragen . WormBase gebruikers hebben steeds meer behoefte aan het verkrijgen van aangepaste batch-rapporten. Om in deze behoefte te voorzien, biedt WormBase twee web-zoekpagina’s: “Batch Genen” en “Batch Sequenties” ( 2 ). De Batch Genen pagina stelt gebruikers in staat om alle biologisch interessante gen data velden op te halen, variërend van externe database ID’s, tot eiwit motieven, GO termen, genomische posities, fenotypes en onderliggende DNA en eiwit sequenties. Deze pagina geeft gebruikers de optie om de resultaten te downloaden in platte tekst of in HTML-formaat, en biedt verschillende manieren om de set van genen van interesse te selecteren. De Batch Sequences-pagina is ideaal voor het ophalen van sequentie-gebaseerde gegevens zoals UTR’s, introns, putatieve promotorelementen, enzovoort. Deze faciliteit kan bijvoorbeeld worden gebruikt om sequentiebestanden te genereren die bestaan uit een specifieke lengte van upstream-sequentie van een geselecteerde reeks eiwit-coderende genen. Beide pagina’s zijn gemakkelijk toegankelijk via de bovenste navigatiebalk. Het voordeel van deze zoekmethode is dat ze resultaten oplevert voor een groot aantal items (genen).

  • Zoeken in querytaal . Voor gebruikers die vertrouwd zijn met de ACeDB database query talen en met de WormBase database modellen, is zoeken in query talen een snelle en veelzijdige methode om in WormBase te zoeken. Er zijn twee zoekpagina’s voor query talen beschikbaar: een voor de WormBase Query Taal, de originele ACeDB query taal, en een andere voor AQL, de nieuwe ACeDB Query Taal die meer lijkt op SQL. Deze pagina’s kunnen worden geopend vanaf de WormBase ‘Site Map’ pagina. Voor gebruikers die niet bekend zijn met de ACeDB query talen, bieden de zoekpagina’s instructies en voorbeeld queries. Het grote voordeel is dat gebruikers verfijnde ad-hoc query’s kunnen formuleren.

  • Bulk downloads . Gebruikers kunnen hele genensets of zelfs de hele database zelf downloaden. WormBase biedt een aantal databaserextracten op zijn FTP-site, waaronder coördinaten van genen en andere kenmerken, eiwitsequenties, gen-splicinggegevens en informatie over genetische kartering. Het volledige genoom en de annotaties zijn beschikbaar in een tabelformaat dat kan worden geladen in en bevraagd met een verscheidenheid aan relationele databases, waaronder MySQL, PostgreSQL en Oracle. Voor elke release is een tabel beschikbaar die PCR-producten, zoals die worden gebruikt voor microarrays en RNAi-experimenten, koppelt aan de huidige geannoteerde genen. WormBase biedt ook de volledige database in het ACeDB-formaat. Het voordeel van deze methode is dat gebruikers niet afhankelijk zijn van het Internet om gegevens op te halen, zodat hun gegevensverwerking niet wordt beperkt door Internettoegang. Problemen in verband met deze methode zijn dat de gebruikers zeer vertrouwd moeten zijn met de aard van de datasets en de databasemodellen.

  • Scripting . Voor meer gevorderde gebruikers die scripts kunnen programmeren, biedt WormBase een open-access server “aceserver” (op http://aceserver.cshl.org ) voor directe toegang tot de backend WormBase database ( 19 ). De WormBase datamining instructie pagina geeft onderzoekers details over hoe verbinding te maken met deze databases met behulp van Perl ( http://www.perl.org ) application programming interface, AcePerl ( http://stein.cshl.org/AcePerl ), samen met een scripts repository van herbruikbare Perl scripts. Gebruikers kunnen deze scripts uitvoeren op hun lokale machines en ze gebruiken als sjablonen om hun eigen scripts aan te passen. Het grootste voordeel hiervan is dat gebruikers de zoekresultaten kunnen bevragen, opmaken en verwerken in de mate die zij wensen. Een voor de hand liggend nadeel is dat gebruikers enige programmeervaardigheden moeten verwerven. Dit wordt echter steeds populairder bij gevorderde gebruikers.

Gespecialiseerde hulpmiddelen voor datamining

Als platform voor sequentieanalyse heeft WormBase een groot aantal hulpmiddelen voor sequentieanalyse ter beschikking van gebruikers gesteld. Deze tools omvatten BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner en protein aligner. In het afgelopen jaar zijn ook twee nieuwe dataminingtools, Textpresso ( http://www.textpresso.org ) ( 23 ), een literatuurzoektool, en CisOrtho ( 24 ), een vergelijkende cis -elements zoektool, toegevoegd aan WormBase. Textpresso is een zoekmachine voor de volledige tekst, die onderzoekers de mogelijkheid biedt om alle literatuur in WormBase te doorzoeken, waaronder een aanzienlijk percentage van de literatuur over C. elegans en C. briggsae. Momenteel bevat de Textpresso databank 19.985 gecureerde documenten, waarvan 4420 de volledige tekst bevatten. Deze documenten zijn afkomstig van vier belangrijke bronnen: (i) CGC-papers . Dit zijn wetenschappelijke tijdschriftartikelen die worden bijgehouden door het Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) samenvattingen van Wormmeetings; (iii) samenvattingen van de Worm Breeders Gazette; en (iv) Diversen . Dit zijn verschillende andere samenvattingen met gegevens over C.elegans en C.briggsae . Een andere nuttige eigenschap van Textpresso is dat het de zinnen retourneert die de sleutelwoorden bevatten, met links naar WormBase paper pagina’s en PubMed pagina’s.

CisOrtho ( 24 ) werkt door uit te gaan van een consensus bindingsplaats die wordt voorgesteld als een gewichtsmatrix. Het identificeert potentiële sites in een vooraf gefilterd genoom en vervolgens verder filteren door het beoordelen van behoud van de vermeende site in het genoom van een verwante soort, een proces genaamd fylogenetische footprinting. CisOrtho is toegankelijk via http://www.wormbase.org/cisortho/ .

DATABASE VRIJGESLOTEN

In het verleden vormde het tweewekelijkse bijwerkbeleid van WormBase een probleem voor onderzoekers die resultaten publiceerden op basis van het doorzoeken van WormBase, omdat tegen de tijd dat hun resultaten werden gepubliceerd de versie van WormBase waarop zij hun analyse baseerden, was verouderd. Om te helpen bij het citeerbaar en reproduceerbaar maken van dergelijk onderzoek, hebben wij een nieuw beleid aangenomen waarbij elke tiende uitgave van WormBase een bevroren uitgave wordt. Bevroren uitgaven zijn eeuwigdurend beschikbaar op speciaal aangewezen WormBase sites met de namen http://ws100.wormbase.org , http://ws110.wormbase.org enzovoort. De eerste bevroren uitgave was http://ws100.wormbase.org , uitgebracht op 10 mei 2003. De meest recente bevriezing is http://ws130.wormbase.org , vrijgegeven op 16 augustus 2004. Onderzoekers worden aangemoedigd om grootschalige analyses uit te voeren op een bevroren release en om het release nummer in hun publicaties te vermelden. Verwijzingen naar alle bevriezingen worden weergegeven op de WormBase live site voorpagina.

SAMENWERKING MET ANDERE DATABANKEN VAN MODELORGANISMEN

WormBase maakt deel uit van het GMOD project ( 25 , 26 ), een brede samenwerking tussen de modelorganisme-databanken om gemeenschappelijke vocabulaires, datamodellen, software-tools en gebruikersinterfaces te ontwikkelen die toepasbaar zijn op alle databanken van de modelorganisme-gemeenschap. Als onderdeel van dit project biedt WormBase op sequentie-gelijkenis gebaseerde links tussen zijn genpagina’s en de genpagina’s van FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) en Reactome ( http://www.reactome.org ). Links naar RGD ( 30 ) en MGD ( 31 ) zijn gepland.

Onlangs heeft het GMOD-project een gemeenschappelijke representatie van genomische sequentiekenmerken ontwikkeld, bekend als de Sequence Ontology ( http://song.sourceforge.net ), die de uitwisseling van genomische annotaties tussen de verschillende MOD’s vergemakkelijkt en het gebruik van gemeenschappelijke analyse- en visualisatie-instrumenten aanmoedigt. GMOD-deelnemers gebruiken nu al gemeenschappelijke softwarepakketten op hun websites voor het visualiseren van genoomannotaties, het tekenen van genetische kaarten en het doorzoeken van de literatuur, en deze convergentie zal in de nabije toekomst nog worden versterkt naarmate de MOD’s evolueren in de richting van een eengemaakte genenpagina.

VUTURE RICHTINGEN

WormBase is geëvolueerd van ACeDB ( http://www.acedb.org ), naar een database die literatuur curatie en biologie van C.elegans omvat ( 4 ), en recentelijk naar een database die de biologie en genomische gegevens van meerdere nematode soorten bevat ( 2 , 3 ). WormBase is nog steeds een werk in uitvoering. Wat de gebruikersinterface betreft, zullen in de toekomst onder meer WormMart worden verbeterd, die is gebaseerd op BioMart, een geavanceerd systeem voor query’s en het genereren van rapporten, dat voor het eerst is ontwikkeld voor gebruik met Ensembl ( 32 ). Wat de gegevens betreft, kijken we uit naar de sequentiebepaling en annotatie van de genomen van nog eens drie nematodensoorten ( http://genome.gov/page.cfm?pageID=10002154 ), waardoor het aantal door WormBase beheerde genomen van Caenorhabditis op vijf komt. In 2005 is WormBase van plan een browser te introduceren voor het intermediaire metabolisme van nematoden en biologische paden van hogere orde. De pathway browser en de onderliggende dataset zullen worden ontwikkeld in samenwerking met de Reactome en MetaCyc ( http://metacyc.org/ ) ( 33 ) projecten. Samen zullen deze een ongeëvenaarde bron voor de ontleding van functionele elementen in de genomen van Caenorhabditis vormen en waardevolle inzichten verschaffen in de evolutie en biologische aanpassingen van deze organismen.

Het WormBase Consortium zal doorgaan met het aanpakken van kwesties die door WormBase-gebruikers aan de orde zijn gesteld, door zowel een eenvoudige als vriendelijke gebruikersinterface te handhaven, terwijl verdere zoek- en onderzoeksinstrumenten worden toegevoegd om de evolutie van WormBase mogelijk te maken van een gegevensopslagplaats tot een hulpbron die door alle biologen kan worden gebruikt om de waarde van modelorganisme-onderzoek in C.elegans en zijn verwanten te maximaliseren.

Zoals altijd zijn opmerkingen, vragen, correcties en het indienen van gegevens welkom ( [email protected] ).

De online versie van dit artikel is gepubliceerd onder een open access model. Gebruikers hebben het recht de open access-versie van dit artikel voor niet-commerciële doeleinden te gebruiken, te reproduceren, te verspreiden of weer te geven, mits: het oorspronkelijke auteurschap juist en volledig wordt vermeld; het tijdschrift en Oxford University Press worden vermeld als de oorspronkelijke plaats van publicatie met vermelding van de juiste citatiegegevens; indien een artikel vervolgens niet in zijn geheel, maar slechts gedeeltelijk of als afgeleid werk wordt gereproduceerd of verspreid, moet dit duidelijk worden aangegeven. Voor toestemming voor commercieel hergebruik kunt u contact opnemen met [email protected] .

P.W.S. is een onderzoeker van het Howard Hughes Medical Institute. Wij danken Sheldon McKay en Kris Gunsalus voor het kritisch lezen van het manuscript. WormBase wordt ondersteund door subsidie P41-HG02223 van het US National Human Genome Research Institute en de British Medical Research Council.

Riddle,D.L., Blumenthal,T., Meyer,B.J. and Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: een multi-species bron voor nematode biologie en genomica.

Nucleic Acids Res.

,

32

(Databanknummer),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: een soort-overschrijdende database voor vergelijkende genomica.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. and Spieth,J. (

2001

) WormBase: netwerktoegang tot het genoom en de biologie van Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Genoomsequentie van de nematode C.elegans : een platform voor het onderzoeken van de biologie.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase als een geïntegreerd platform voor het C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Systematische functionele analyse van het Caenorhabditis elegans genoom met behulp van RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. and Davidson,G.S. (

2001

) A gene expression map for Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) A map of the interactome network of the metazoan C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. and Marra,M.A. (

2001

) Veranderingen in genexpressie geassocieerd met ontwikkelingsstilstand en levensduur in Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) The genome sequence of Caenorhabditis briggsae : a platform for comparative genomics.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) The COG database: an updated version includes eukaryotes.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genoomannotatie door high-throughput 5′ RNA eindbepaling.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) The Bioperl toolkit: Perl modules voor de biowetenschappen.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. and Stein,L. (

2001

) The distributed annotation system.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. and Thierry-Mieg,J. (

1998

) Scriptable access to the Caenorhabditis elegans genome sequence and other ACEDB databases.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. and Gish,W. (

2003

) WU-Blast2 server bij het European Bioinformatics Institute.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sequence mapping by electronic PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. and Sternberg,P. (

2004

) Testpresso: een ontologie-gebaseerd informatie retrieval en extractie systeem voor C. elegans literatuur.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. and Hobert,O. (

2004

) CisOrtho: een programmapijplijn voor genoombrede identificatie van doelgenen voor transcriptiefactoren met behulp van fylogenetische footprinting.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: een sequentie annotatie editor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a building block for a model organism system database.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) De FlyBase-database van de Drosophila-genoomprojecten en de literatuur van de gemeenschap.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) biedt hulpmiddelen voor het identificeren en analyseren van sequenties van Saccharomyces cerevisiae en verwante sequenties van andere organismen.

Nucleic Acids Res.

,

32

(Databanknummer),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Databanknummer),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): mapping ziekte op het genoom.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) The Mouse Genome Database (MGD): integratie van biologie met het genoom.

Nucleic Acids Res.

,

32

(Databanknummer),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. and Birney,E. (

2004

) EnsMart: een generiek systeem voor snelle en flexibele toegang tot biologische gegevens.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. and Karp,P.D. (

2004

) MetaCyc: een multiorganism database van metabole paden en enzymen.

Nucleic Acids Res.

,

32

(Databanknummer),

D438

-D442.

Author notes

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute and California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK en 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA