Articles

WormBase: en omfattande dataresurs för Caenorhabditis biologi och genomik

Abstract

WormBase ( http://www.wormbase.org ), databasen för modellorganismer med information om Caenorhabditis elegans och relaterade nematoder, fortsätter att expandera i bredd och djup. Under det senaste året har WormBase lagt till flera storskaliga dataset, bland annat SAGE, interactome, 3D-proteinstrukturdataset och NCBI KOGs. För att tillgodose denna tillväxt har det internationella WormBase-konsortiet förbättrat användargränssnittet genom att lägga till nya funktioner som underlättar navigering, visualisering av storskaliga datamängder, avancerad sökning och datautvinning. Internt har vi omstrukturerat databasmodellerna för att rationalisera representationen av gener och för att förbereda systemet för att ta emot genomsekvenser av ytterligare tre Caenorhabditis-arter under det kommande året.

Antagen den 21 augusti 2004; Reviderad och accepterad den 5 oktober 2004

BESKRIVNING

WormBase är en databas för modellorganismer för biologi och genomik hos Caenorhabditis elegans och Caenorhabditis briggsae . Det är en resurs som utvecklas snabbt och som drivs av det faktum att C.elegans används i stor utsträckning som modellorganism för en rad olika biomedicinska forskningsämnen, inklusive utveckling, neurovetenskap, apoptos och åldrande ( 1 – 4 ), och att ett allt bredare utbud av höggenomströmningsdata är tillgängligt för den. Genomsekvensen av C.elegans ( 5 ) har gett ett uppsving åt forskningsprojekt som omfattar hela genomet, inklusive ORFeome ( 6 ), RNA-interferens (RNAi) ( 7 ), mikroarray ( 8 ), interactome (genome-wide protein-protein interactions) ( 9 ), serial analysis of gene expression (SAGE) ( 10 , 11 ) och andra tekniker för profilering av genuttryck ( 11 ). Dessa storskaliga datamängder har enormt berikat innehållet i WormBase ( 2 , 3 ). På senare tid har tillgången till hela C.briggsae-genomsekvensen ( 12 ), utöver den för C.elegans , etablerat WormBase som en plattform för komparativ genomik bland Caenorhabditides-släktet ( 13 ).

Det internationella WormBase-konsortiet, som består av över 30 forskare från fyra institutioner ( http://wormbase.org/about/people.html ), samlar in och annoterar både storskaliga och småskaliga dataset från C.elegans , C.briggsae och besläktade nematoder, organiserar dem i en enda offentlig databas och gör dem tillgängliga för bläddring och nedladdning på webbplatsen WormBase. Förutom att förvärva direkt deponerade data genom kontakter med forskarsamhället granskar och hämtar konsortiet data från hela den publicerade litteraturen om Caenorhabditis. Nya versioner av databasen görs tillgängliga varannan vecka, vilket säkerställer att nya och uppdaterade dataset är tillgängliga för samhället i rätt tid. I detta dokument granskas de senaste framstegen när det gäller WormBases innehåll och förbättringar av användargränssnittet, förklaras hur WormBase utvecklas och diskuteras olika metoder för att få tillgång till data. Dokumentet avslutas med en diskussion om nya funktioner som planeras för det kommande året.

Nyligen tillkomna tillägg till WormBases innehåll

Under det senaste året har vi kraftigt ökat storleken på vissa befintliga dataset. Det finns till exempel en femfaldig ökning av datapunkter från mikroarrayer och en dramatisk 13-faldig ökning av mikroarrayexperiment, från 8 experiment (rapporterade i 2 artiklar) till 113 experiment (rapporterade i 15 artiklar). Antalet RNAi-experiment som ger en fenotyp som inte är av vildtyp har också mer än fördubblats under det senaste året.

Vi fortsätter att förfina C.elegans-genmodellerna på grundval av nya data som dyker upp i litteraturen, från nya sekvensdata i de offentliga nukleotiddatabaserna (GenBank/EMBL/DDBJ) och från personlig kommunikation från Worm-communityt. Den största delen av kuratiseringsverksamheten består i att förfina strukturen på befintliga genmodeller. Vi fortsätter dock också att ta bort genprediktioner som inte längre är giltiga (t.ex. mycket korta öppna läsramar) och vi lägger kontinuerligt till nya genprediktioner när det är lämpligt (vanligtvis motsvarande nya isoformer av en befintlig gen). Trots att ett stort antal gener skapas och tas bort har det totala antalet gener (för proteinkodande gener) bara haft en liten nettoökning (+22 gener) under året. I motsats till detta har andelen proteinkodande gener som nu bekräftas av transkriptdata (dvs. där varje kodande exon har transkriptstöd) ökat med 20 % (från 4663 till 5569) under samma period. Detta beror på tillgången till fler transkriptdata och kuratorernas arbete med att förfina genmodellerna så att de bättre passar de tillgängliga transkriptdata som finns tillgängliga. Vi har också kraftigt förbättrat metoderna för att kartlägga transkriptioner på genomet och koppla dem till genmodeller.

Under samma period har WormBase lagt till flera nya storskaliga experimentella och teoretiska dataset. Noterbara tillägg inkluderar storskaliga SAGE-dataset ( 10 , 11 ), interactome-dataset ( 9 ), 3D-strukturella data och National Center for Biotechnology Information (NCBI) KOGs ( 14 ) uppsättning av förutspådda ortologiska grupper. Nyligen har den nyligen utvecklade tekniken trans-spliced exon coupled RNA end determination (TEC-RED) använts för att analysera 5′-ändarna av uttryckta gener i C.elegans ( 15 ), och datamängden håller på att kureras och föras in i WormBase.

Genomövergripande SAGE

SAGE ( 10 , 11 ) är en känslig teknik för att analysera genuttrycksnivåer över hela genomet som utgör ett bra komplement till mikroarraybaserade tekniker. Från och med version WS123 innehåller WormBase resultaten från 12 SAGE-bibliotek, varav två har publicerats tidigare ( 10 ). De 12 biblioteken täcker olika utvecklingsstadier ( 11 ) från embryo till vuxen och berör 20 417 gener (kodande sekvenser, WS129) som motsvarar 91,9 % av alla gener som annoterats i C.elegans-genomet i WormBase (22 213 inklusive alternativt splicade kodande sekvenser, WS129). SAGE-taggar som motsvarar en gen kan hittas längst ner på WormBases gensida (t.ex. http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) och är länkade till information som beskriver SAGE-taggens abundans i olika livsstadier på en ny SAGE-rapportsida ( figur 1 ).

Figur 1.

SAGE-rapportsida.

Figur 1.

SAGE-rapportsida.

Interactome

Att dissekera ett proteins interaktionsnätverk är ofta en nyckel till att förstå dess biologiska roll. WormBase innehåller resultaten från ”Interactome Project”, en storskalig screening baserad på Y2H-tekniken (yeast two-hybrid) ( 9 ). I den nuvarande datamängden är beten fördomsfritt inriktade på gener som antingen är homologa med mänskliga gener, som har flercelliga funktioner (gener med homologer i flercelliga organismer, inklusive Drosophila melanogaster , Homo sapiens och Arabidopsis thaliana, men inte i Saccharomyces cerevisiae ), eller som har en känd roll i mitos och meios. För närvarande innehåller WormBase 5534 interaktioner som täcker 15 % av C.elegans proteom. Användarna kan se dessa interaktioner från sidan med genernas sammanfattning.

Protein three-dimensional structures

Denna lilla men viktiga datamängd kommer från Northeast Structural Genomics Consortium ( http://www.nesg.org ), vars syfte är att ta fram 340 C.elegans-måltavlor. Konsortiets primära mål fokuserar på proteiner från eukaryota modellorganismer, inklusive S.cerevisiae och D.melanogaster utöver C.elegans . För närvarande har strukturer för sex proteiner deponerats i Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Detaljerad information om statusen för dessa 340 C.elegans-måltavlor har inkluderats i WormBase och kommer att uppdateras regelbundet.

NCBI KOGs

KOGs är en eukaryotspecifik version av Conserved Orthologous Groups som ursprungligen utformades vid NCBI för mikrobiella genomer ( 14 ). KOG definieras av en triangel av ömsesidiga bästa BLASTP-träffar mellan domäner av eukaryota proteiner från mycket olika arter ( 14 ). Under det senaste året har WormBase införlivat dessa KOG-annoteringar tillsammans med andra homologigrupper ( 14 ). För närvarande innehåller WormBase 4852 KOG:er, vilket inkluderar produkten av 9427 proteinkodande gener från C.elegans (dvs. 48 % av alla förutspådda proteinkodande gener i WS129).

INTERNAL DATA MODEL CHANGES AND NEW IDENTIFIERS

Backend-databasen för WormBase är ACeDB ( http://www.acedb.org ) ( 4 ). Under det senaste året har vi ändrat det sätt på vilket ett antal datatyper representeras i databasen. Dessa ändringar av databasschemat påverkar inte vanliga användare. Avancerade användare som skriver skript för att få tillgång till WormBase måste dock vara medvetna om dem. Betydande modellförändringar inkluderar införandet av en enhetlig Gene-klass ( http://wormbase.org/db/misc/model?class=Gene ), som innehåller all relevant information om en gen. Tidigare var sådan information utspridd i flera inbördes relaterade klasser. Samtidigt har vi infört klasserna CDS och Transcript för att bättre hantera relationerna mellan splicade transkript och deras produkter, och vi har avsevärt förbättrat härledningen av transkriptstrukturer från cDNA- och EST-sekvenser.

Parallellt med dessa förändringar har vi infört stabila anonyma identifierare för gener, av formen WBGene00006741, och för artiklar, av formen WBPaper0005637, i samma form som personidentifierare av formen WBPerson241. Dessa identifierare spårar de olika namn som har använts för motsvarande enhet och bör om möjligt användas för korshänvisningar i databaser. Webbplatsen stöder webbadresser av formen http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Frågor om datamodeller kan ställas till [email protected] .

FÖRBÄTTRINGAR AV ANVÄNDARENS INTERFACE

Förbättringar av WormBase genombrowser

Genombrowsern är en central komponent i WormBase som gör det möjligt för användarna att visualisera strukturer för genmodeller och deras understödjande bevis, samt andra funktioner som enskilda nukleotidpolymorfismer (SNPs), repetitiva element och experimentella reagenser. Under det senaste året har webbläsaren förbättrats på flera sätt: (i) Stöd för skalbar vektorgrafik ( SVG ) . Bilderna i WormBase-genombrowsern har använts i stor utsträckning i presentationer och publikationsillustrationer ( 2 , 3 , 17 ), men deras bitmappade natur leder till bildförsämring när de skrivs ut i hög upplösning. Vi har nyligen lagt till en funktion som gör det möjligt för WormBase-användare att ladda ner specificerade genomwebbläsarbilder som SVG-filer ( http://www.w3.org/TR/SVG/ ), som kan visas, redigeras och skrivas ut i hög upplösning med hjälp av SVG-kompatibla programvaror som Adobe Illustrator 10 . (ii) Framhävande av funktioner . För att underlätta lokalisering och visualisering av intressanta funktioner markerar WormBase nu med en gul bakgrund den funktion som användarna har hittat i en sökning. Denna förändring är särskilt användbar när användarna bläddrar i stora fönster med flera spår aktiverade. (iii) Otranslaterade regioner ( UTRs ). Både den interna datamodellen och den visuella visningen har nu ändrats för att visa de otranslaterade delarna av transkript, liksom interna skarvar som förekommer inom 5′- eller 3′-UTR. (iv) Fler funktionsspår , inklusive SNPs, SAGE-taggar, operon, poly(A)-platser och förutspådda signalsekvenser. (v) DAS-stöd . Genombrowsern kan nu användas som en tittare för DAS-spår (Distributed Annotation System) ( 18 ), vilket gör det möjligt för användare att lägga sina egna annotationer på WormBase-spår.

Sida för EST-anpassning och sida för proteinanpassning

WormBase upprätthåller nu anpassningar på nukleotidnivå av ESTs, cDNAs och andra sekvenser både inom och mellan arter. Till exempel kan anpassningen mellan C.elegans- och C.briggsae-genomerna ses både i en vy med låg upplösning som betonar förhållandet mellan en grupp kolinjära gener ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), eller i en vy för textanpassning med hög upplösning som visar skillnader i enskilda nukleotider. ESTs och cDNAs från C.elegans och andra nematoder kan visas i en vy för multipel anpassning som framhäver felanpassningar och luckor ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

På proteinnivå upprätthåller WormBase en lista över de bästa BLAST-matchningarna till de längsta proteinprodukterna från andra viktiga arter, inklusive människa ( H.sapiens ), mus ( Mus musculus ), råtta ( Rattus norvegicus ), fluga ( D.melanogaster ), jäst ( S.cerevisiae ) och C.briggsae , som tillsammans kan ge en inblick i funktionen hos de relaterade generna. Alla BLAST-resultat är hyperlänkade till en relevant post i respektive modellorganismdatabas eller till Swiss-Prot/TrEMBL, beroende på vad som är lämpligt. I den multipla anpassningsvisningen framhävs bevarade aminosyrarester med hjälp av en färgkod som baseras på resternas kemiska egenskaper ( figur 2 ).

Figur 2.

Proteinjusteringssida.

Figur 2.

Proteinjusteringssida.

WormBase site map and WormBase glossary

Under det senaste året har vi lagt till en WormBase site map ( http://wormbase.org/db/misc/site_map ) för att ge en överblick över det ökande antalet webbsidor. Användare kan komma åt denna karta direkt från navigeringsbannern högst upp på varje WormBase-sida. Webbplatskartans sida listar alla WormBase-sidor och ger användarna olika vyer. Användarna kan till exempel välja ”Detaljerad vy” för att få en kort översikt över enskilda sidor innan de bläddrar på sidorna. Och ”Alphabetical View” listar söksidor i alfabetisk ordning. Nyligen har WormBase upprättat en glossarsida ( http://dev.wormbase.org/db/misc/glossary ) som listar definitioner av vanliga termer som används på hela webbplatsen.

WormBase AS A PLATFORM FOR DATA MINING

I takt med att biologer kommer att göra mer sofistikerad användning av storskaliga datamängder finns det ett ökande behov av en resurs som är mer än ett arkiv som man kan peka på och klicka på, utan som också tillhandahåller verktyg för dataanalys och datautvinning. I det här avsnittet beskrivs kortfattat befintliga och nyligen införda funktioner som gör WormBase lämplig för datautvinning.

WormBase accessing and retrieving

Det finns fem olika metoder för att komma åt WormBase, var och en lämplig för olika syften. Användarna kan välja de lämpligaste åtkomstmetoderna beroende på sin erfarenhet och sina behov.

  • Sökning på webbplatsen . Detta är ett tillvägagångssätt med en punkt i taget. WormBase-användare går vanligtvis in i WormBase från förstasidan och söker i sökrutan efter den gen (eller andra objekt) som intresserar dem. Alternativt kan användarna öppna WormBase webbplats karta genom att klicka på en länk i den övre navigationsbannern och gå in på en specifik webbsida för sökning, antingen genom sekvens (BLAST eller BLAT) eller genom text. När användarna har hittat det ämne de är intresserade av kan de bläddra bland relaterade webbsidor genom att följa länkarna. Fördelen med att arbeta med WormBase på detta sätt är att användarna kan få detaljerade vyer och information om de objekt som intresserar dem.

  • Satsvis hämtning . WormBase-användare har allt oftare behov av att få skräddarsydda batchrapporter. För att tillgodose detta behov tillhandahåller WormBase två webbsöksidor: ”Batch Genes” och ”Batch Sequences” ( 2 ). På sidan Batch Genes kan användarna hämta alla biologiskt intressanta gendatafält, från externa databas-ID:n till proteinmotiv, GO-termer, genomiska positioner, fenotyper och underliggande DNA- och proteinsekvenser. På denna sida kan användaren välja att hämta resultaten i ren text eller i HTML-format, och det finns flera olika sätt att välja den uppsättning gener som är av intresse. Sidan Batch Sequences är idealisk för att hämta sekvensbaserade data, t.ex. UTRs, introner, förmodade promotorelement och så vidare. Denna funktion kan till exempel användas för att generera sekvensfiler som består av en specifik längd av uppströmssekvens från en utvald uppsättning proteinkodande gener. Båda sidorna kan lätt nås från den övre navigationsbannern. Fördelen med denna sökmetod är att den ger resultat för ett stort antal objekt (gener).

  • Sökning med frågespråk . För användare som är bekväma med ACeDB-databasens frågespråk och bekanta med WormBase-databasmodellerna utgör frågespråkssökningar en snabb och mångsidig metod för att söka i WormBase. Det finns två sidor för sökning på frågespråk: en för WormBase Query Language, det ursprungliga ACeDB-frågespråket, och en annan för AQL, det nya ACeDB-frågespråket som är mer likt SQL. Dessa sidor kan nås från WormBase ”Site Map”-sidan. För användare som inte är bekanta med ACeDB:s frågespråk innehåller söksidorna instruktioner och exempelfrågor. Den stora fördelen är att användarna kan formulera sofistikerade ad hoc-förfrågningar.

  • Hämtningar i bulk . Användarna kan ladda ner hela genuppsättningar eller till och med hela själva databasen. WormBase tillhandahåller ett antal databasutdrag på sin FTP-webbplats, bland annat koordinater för gener och andra egenskaper, proteinsekvenser, uppgifter om gensplicering och information om genetisk kartläggning. Hela genomet och dess annotationer finns tillgängliga i ett tabellformat som kan laddas in i och sökas med en mängd olika relationsdatabaser, inklusive MySQL, PostgreSQL och Oracle. För varje utgåva finns en tabell som länkar PCR-produkter, t.ex. sådana som används för mikroarrays och RNAi-experiment, till aktuella annoterade gener. WormBase tillhandahåller också hela databasen i ACeDB-formatet. Fördelen med denna metod är att användarna inte behöver förlita sig på Internet för att hämta data, vilket innebär att deras databehandling inte begränsas av tillgången till Internet. Problemet med denna metod är att användarna måste vara mycket förtrogna med datamängderna och databasmodellerna.

  • Scripting . För mer avancerade användare som kan programmering av skript tillhandahåller WormBase en server med öppen tillgång ”aceserver” (på http://aceserver.cshl.org ) för direkt tillgång till WormBases backend-databas ( 19 ). På sidan WormBase data mining instruction page får forskare information om hur man ansluter till dessa databaser med hjälp av Perl ( http://www.perl.org ) application programming interface, AcePerl ( http://stein.cshl.org/AcePerl ), tillsammans med ett skriptförråd med återanvändbara Perl-skript. Användarna kan köra dessa skript på sina lokala maskiner och använda dem som mallar för att anpassa egna skript. Den största fördelen med detta är att användarna kan fråga, formatera och bearbeta sökresultaten i den utsträckning de önskar. En uppenbar nackdel är att användarna måste skaffa sig vissa programmeringskunskaper. Detta blir dock alltmer populärt bland avancerade användare.

Specialiserade verktyg för datautvinning

Som en plattform för sekvensanalys har WormBase gjort ett stort antal verktyg för sekvensanalys tillgängliga för användarna. Dessa verktyg omfattar BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner och protein aligner. Under det senaste året har två nya verktyg för datautvinning, Textpresso ( http://www.textpresso.org ) ( 23 ), ett verktyg för litteratursökning, och CisOrtho ( 24 ), ett verktyg för jämförande sökning efter cis-element, också lagts till i WormBase. Textpresso är en sökmotor för fulltext som ger forskare möjlighet att söka i hela WormBases litteraturbestånd, vilket inkluderar en betydande andel av litteraturen om C.elegans och C.briggsae. För närvarande innehåller Textpresso-databasen 19 985 kurerade dokument, varav 4420 har fullständiga texter. Dessa dokument kommer från fyra huvudkällor: (i) CGC-handlingar . Detta är vetenskapliga tidskriftsartiklar som upprätthålls av Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ), ii) sammanfattningar från Worm Meetings, iii) sammanfattningar från Worm Breeders Gazette och iv) diverse . Detta är olika andra sammanfattningar som innehåller uppgifter om C.elegans och C.briggsae . En annan användbar funktion i Textpresso är att den returnerar de meningar som innehåller nyckelorden, med länkar till WormBase-papperssidor och PubMed-sidor.

CisOrtho ( 24 ) arbetar genom att utgå från en konsensusbindningsplats som representeras som en viktmatris. Den identifierar potentiella platser i ett förfiltrerat genom och filtrerar sedan ytterligare genom att bedöma bevarandet av den förmodade platsen i arvsmassan hos en besläktad art, en process som kallas fylogenetiskt fotavtryck. CisOrtho kan nås på http://www.wormbase.org/cisortho/ .

DATABASE FREEZES

Tidigare utgjorde WormBase-politiken för uppdatering varannan vecka ett problem för forskare som publicerade resultat baserade på utvinning av WormBase, eftersom den version av WormBase som de baserade sin analys på hade ersatts när deras resultat publicerades. För att hjälpa till att göra sådan forskning citerbar och reproducerbar har vi antagit en ny policy där var tionde version av WormBase blir en fryst version. Frysta utgåvor är tillgängliga för all framtid på särskilt utsedda WormBase-platser med namnen http://ws100.wormbase.org , http://ws110.wormbase.org och så vidare. Den första frysta versionen var http://ws100.wormbase.org , som släpptes den 10 maj 2003. Den senaste frysningen är http://ws130.wormbase.org , som släpptes den 16 augusti 2004. Forskare uppmuntras att utföra storskaliga analyser på en fryst version och att ange versionsnumret i sina publikationer. Hänvisningar till alla frysta versioner visas på WormBase live webbplatsens förstasida.

SAMARBETE MED ANDRA DATABASER FÖR MODELLORGANISMER

WormBase är en del av GMOD-projektet ( 25 , 26 ), ett brett samarbete mellan databaser för modellorganismer för att utveckla gemensamma vokabulärer, datamodeller, programvaruverktyg och användargränssnitt som kan tillämpas på alla databaser för modellorganismer. Som en del av detta projekt tillhandahåller WormBase sekvenslikhetsbaserade länkar mellan sina gensidor och gensidorna i FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) och Reactome ( http://www.reactome.org ). Länkar till RGD ( 30 ) och MGD ( 31 ) är planerade.

Nyligen har GMOD-projektet utvecklat en gemensam representation av genomiska sekvensegenskaper, den så kallade sekvensontologin ( http://song.sourceforge.net ), som underlättar utbytet av genomiska annotationer mellan de olika MOD:erna och uppmuntrar användningen av gemensamma analys- och visualiseringsverktyg. GMOD-deltagarna använder redan gemensamma mjukvarupaket på sina webbplatser för att visualisera genomanteckningar, rita genetiska kartor och söka i litteraturen, och denna konvergens kommer att förstärkas inom den närmaste framtiden när MOD:erna rör sig mot en enhetlig gensida.

Framtida riktlinjer

WormBase har utvecklats från ACeDB ( http://www.acedb.org ), till en databas som omfattar litteraturvård och biologi för C.elegans ( 4 ), och nyligen till en databas som rymmer biologiska och genomiska data för flera nematodarter ( 2 , 3 ). WormBase är fortfarande ett pågående arbete. När det gäller användargränssnittet omfattar framtida förbättringar WormMart, som bygger på BioMart, ett avancerat system för sökning och rapportgenerering som först utvecklades för användning med Ensembl ( 32 ). På datafronten ser vi fram emot genomsekvensering och annotering av ytterligare tre nematodarter ( http://genome.gov/page.cfm?pageID=10002154 ), vilket innebär att antalet Caenorhabditis-genom som underhålls av WormBase kommer att uppgå till fem. Under 2005 planerar WormBase att införa en webbläsare för intermediär metabolism hos nematoder och biologiska vägar av högre ordning. Webbläsaren och det underliggande datasetet kommer att utvecklas i samarbete med projekten Reactome och MetaCyc ( http://metacyc.org/ ) ( 33 ). Tillsammans kommer dessa att utgöra en oöverträffad resurs för att dissekera funktionella element i Caenorhabditis genomer och ge värdefulla insikter i dessa organismers evolution och biologiska anpassningar.

WormBase-konsortiet kommer att fortsätta att ta itu med frågor som tagits upp av WormBase-användarna och bibehålla både ett enkelt och vänligt användargränssnitt och samtidigt lägga till ytterligare sök- och forskningsverktyg för att möjliggöra att WormBase utvecklas från ett dataregister till en resurs som alla biologer kan använda för att maximera värdet av forskning om modellorganismer i C.elegans och dess släktingar.

Som alltid välkomnar vi kommentarer, frågor, korrigeringar och datainsändningar ( [email protected] ).

Onlineversionen av denna artikel har publicerats enligt en open access-modell. Användare har rätt att använda, reproducera, sprida eller visa open access-versionen av denna artikel för icke-kommersiella ändamål under förutsättning att: det ursprungliga författarskapet anges korrekt och fullständigt; tidskriften och Oxford University Press anges som ursprunglig publiceringsort med korrekta citeringsuppgifter; om en artikel senare reproduceras eller sprids, inte i sin helhet utan endast delvis eller som ett avledt verk, måste detta tydligt anges. För tillstånd till kommersiell vidareutnyttjande, vänligen kontakta [email protected] .

P.W.S. är forskare vid Howard Hughes Medical Institute. Vi tackar Sheldon McKay och Kris Gunsalus för kritisk läsning av manuskriptet. WormBase stöds av anslaget P41-HG02223 från US National Human Genome Research Institute och British Medical Research Council.

Riddle,D.L., Blumenthal,T., Meyer,B.J. och Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: a multi-species resource for nematode biology and genomics.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: en artöverskridande databas för jämförande genomik.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. and Spieth,J. (

2001

) WormBase: nätverkstillgång till Caenorhabditis elegans genom och biologi .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Genome sequence of the nematode C.elegans : a platform for investigating biology.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Systematisk funktionell analys av Caenorhabditis elegans genom med hjälp av RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. och Davidson,G.S. (

2001

) En genuttryckskarta för Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) En karta över interaktionsnätverket hos metazoen C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. and Marra,M.A. (

2001

) Förändringar i genuttryck i samband med utvecklingsstopp och livslängd hos Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, s. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) Genomequence of Caenorhabditis briggsae : a platform for comparative genomics.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) Utkast till genomsekvens för nematoden Caenorhabditis briggsae , a companion to C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) COG-databasen: en uppdaterad version omfattar eukaryoter.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genome annotation by high-throughput 5′ RNA end determination.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) Verktygslådan Bioperl: Perlmoduler för biovetenskaperna.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. och Stein,L. (

2001

) Det distribuerade anteckningssystemet.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. och Thierry-Mieg,J. (

1998

) Skriptbaserad tillgång till Caenorhabditis elegans genomsekvens och andra ACEDB-databaser.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. och Gish,W. (

2003

) WU-Blast2-server vid European Bioinformatics Institute.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sekvenskartläggning genom elektronisk PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. och Sternberg,P. (

2004

) Testpresso: ett ontologibaserat system för informationssökning och utvinning av litteratur om C. elegans.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. och Hobert,O. (

2004

) CisOrtho: en programpipeline för identifiering av målgener för transkriptionsfaktorer över hela genomet med hjälp av fylogenetiska fotavtryck.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: en redigerare för sekvensannotation.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a building block for a model organism system database.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) FlyBase-databasen över Drosophila-genomprojekt och litteratur från samhället.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) tillhandahåller verktyg för att identifiera och analysera sekvenser från Saccharomyces cerevisiae och relaterade sekvenser från andra organismer.

Nucleic Acids Res.

,

32

(Databasnummer),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): kartläggning av sjukdomar på genomet.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) The Mouse Genome Database (MGD): integrering av biologi med genomet.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. och Birney,E. (

2004

) EnsMart: ett generiskt system för snabb och flexibel tillgång till biologiska data.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. and Karp,P.D. (

2004

) MetaCyc: a multiorganism database of metabolic pathways and enzymes.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Författarnotiser

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute och California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK och 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA