Articles

WormBase: a comprehensive data resource for Caenorhabditis biology and genomics

Abstract

WormBase ( http://www.wormbase.org ), databáze modelových organismů pro informace o Caenorhabditis elegans a příbuzných hlísticích, se stále rozšiřuje do šířky i hloubky. V uplynulém roce přibylo do databáze WormBase několik rozsáhlých datových sad včetně SAGE, interaktomu, datových sad 3D struktury proteinů a KOG NCBI. S ohledem na tento růst Mezinárodní konsorcium WormBase vylepšilo uživatelské rozhraní přidáním nových funkcí, které usnadňují navigaci, vizualizaci rozsáhlých datových souborů, pokročilé vyhledávání a dolování dat. Interně jsme restrukturalizovali modely databáze, abychom racionalizovali reprezentaci genů a připravili systém na přijetí sekvencí genomů dalších tří druhů Caenorhabditis v příštím roce.

Přijato 21. srpna 2004; revidováno a přijato 5. října 2004

POPIS

WormBase je databáze modelových organismů pro biologii a genomiku Caenorhabditis elegans a Caenorhabditis briggsae . Jedná se o rychle se rozvíjející zdroj, který je veden skutečností, že C.elegans je široce používán jako modelový organismus pro různá témata biomedicínského výzkumu, včetně vývoje, neurovědy, apoptózy a stárnutí ( 1 – 4 ), a je pro něj k dispozici stále větší množství vysoce výkonných dat. Sekvence genomu C.elegans ( 5 ) podpořila výzkumné projekty v rámci celého genomu, včetně ORFeome ( 6 ), RNA interference (RNAi) ( 7 ), microarray ( 8 ), interaktomu (interakce protein-protein v rámci celého genomu) ( 9 ), sériové analýzy genové exprese (SAGE) ( 10 , 11 ) a dalších technik profilování genové exprese ( 11 ). Tyto rozsáhlé soubory dat enormně obohatily obsah databáze WormBase ( 2 , 3 ). Nedávno se díky dostupnosti celé sekvence genomu C.briggsae ( 12 ), která doplňuje sekvenci genomu C.elegans , stala databáze WormBase platformou pro srovnávací genomiku mezi rody Caenorhabditides ( 13 ).

Mezinárodní konsorcium WormBase, které tvoří více než 30 vědců ze čtyř institucí ( http://wormbase.org/about/people.html ), shromažďuje a anotuje velké i malé soubory dat z C.elegans , C.briggsae a příbuzných hlístic, organizuje je v jediné veřejné databázi a zpřístupňuje je k prohlížení a stahování na internetových stránkách WormBase. Kromě získávání přímo uložených údajů na základě spojení s výzkumnou komunitou konsorcium přezkoumává a získává údaje z kompletní publikované literatury o Caenorhabditis. Nové verze databáze jsou zpřístupňovány každé dva týdny, což zajišťuje, že nové a aktualizované soubory dat jsou komunitě k dispozici včas. Tento článek podává přehled nedávného pokroku v obsahu databáze WormBase a vylepšení uživatelského rozhraní, vysvětluje, jak se databáze WormBase vyvíjí, a pojednává o různých metodách přístupu k datům. Článek uzavírá diskuse o nových funkcích plánovaných na příští rok.

NOVĚJŠÍ DOPLŇKY OBSAHU Báze WormBase

V průběhu minulého roku jsme výrazně zvětšili velikost některých stávajících datových sad. Například došlo k pětinásobnému nárůstu počtu datových bodů na mikročipech a k dramatickému třináctinásobnému nárůstu počtu experimentů na mikročipech, a to z 8 experimentů (uvedených ve 2 článcích) na 113 experimentů (uvedených v 15 článcích). Za poslední rok se také více než zdvojnásobil počet experimentů RNAi, které vedly k fenotypu jiného než divokého typu.

Pokračujeme ve zpřesňování genových modelů C.elegans na základě nových údajů objevujících se v literatuře, z nových sekvenčních dat ve veřejných nukleotidových databázích (GenBank/EMBL/DDBJ) a z osobních sdělení komunity Worm. Většina kurátorských činností zahrnuje zpřesňování struktury stávajících genových modelů. Pokračujeme však také v odstraňování předpovědí genů, které již nejsou platné (např. velmi krátké otevřené čtecí rámce), a v případě potřeby průběžně přidáváme nové předpovědi genů (obvykle odpovídající novým izoformám existujícího genu). Přestože bylo vytvořeno a odstraněno velké množství genů, celkový počet genů (pro geny kódující proteiny) zaznamenal v průběhu roku pouze malý čistý nárůst (+22 genů). Naproti tomu podíl genů kódujících bílkoviny, které jsou nyní potvrzeny údaji o transkripci (tj. u nichž má každý kódující exon podporu transkripce), se za stejné období zvýšil o 20 % (z 4663 na 5569). To je způsobeno dostupností většího množství transkripčních dat a prací kurátorů na zdokonalování genových modelů tak, aby lépe odpovídaly dostupným transkripčním datům. Výrazně jsme také zlepšili metody, kterými jsou transkripty mapovány na genom a připojovány ke genovým modelům.

Ve stejném období přibylo v databázi WormBase několik nových rozsáhlých experimentálních a teoretických souborů dat. Mezi významné přírůstky patří rozsáhlé datové sady SAGE ( 10 , 11 ), datová sada interaktomů ( 9 ), 3D strukturní data a sada předpovězených ortologických skupin KOGs ( 14 ) Národního centra pro biotechnologické informace (NCBI). Nedávno byla použita nově vyvinutá technika trans-spliced exon coupled RNA end determination (TEC-RED) pro testování 5′ konců exprimovaných genů u C.elegans ( 15 ) a soubor dat je kurátorsky zpracováván a vkládán do WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) je citlivá technika pro testování úrovně exprese genů v celém genomu, která dobře doplňuje techniky založené na microarray. Od verze WS123 obsahuje databáze WormBase výsledky 12 knihoven SAGE, z nichž dvě byly publikovány již dříve ( 10 ). Těchto 12 knihoven pokrývá různá vývojová stadia ( 11 ) od embrya po dospělce a dotýká se 20 417 genů (kódujících sekvencí, WS129), které odpovídají 91,9 % všech genů anotovaných v genomu C.elegans v databázi WormBase (22 213 včetně alternativně sestřihaných kódujících sekvencí, WS129). Značky SAGE odpovídající genu lze nalézt v dolní části stránky genu WormBase (např. http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) a jsou propojeny s informacemi podrobně popisujícími četnost značky SAGE v různých životních fázích na nové stránce zprávy SAGE ( obrázek 1 ).

Obrázek 1.

Stránka zprávy SAGE.

Obrázek 1.

Stránka zprávy SAGE.

Interaktom

Rozbor interakční sítě proteinu je často klíčem k pochopení jeho biologické úlohy. Databáze WormBase obsahuje výsledky projektu „Interactome Project“, rozsáhlého screeningu založeného na technice yeast two-hybrid (Y2H) ( 9 ). V současném souboru dat jsou návnady zaměřeny na geny, které jsou buď homologické s lidskými geny, mají mnohobuněčné funkce (geny s homology v mnohobuněčných organismech včetně Drosophila melanogaster , Homo sapiens a Arabidopsis thaliana, ale ne v Saccharomyces cerevisiae ), nebo mají známou úlohu v mitóze a meióze. V současné době obsahuje databáze WormBase 5534 interakcí, které pokrývají 15 % proteomu C.elegans. Uživatelé si mohou tyto interakce prohlédnout na stránce s přehledem genů.

Třírozměrné struktury proteinů

Tento malý, ale důležitý soubor dat pochází z konsorcia Northeast Structural Genomics Consortium ( http://www.nesg.org ), jehož cílem je vytvořit 340 cílů C.elegans. Primární cíle konsorcia se zaměřují na proteiny eukaryotických modelových organismů včetně S.cerevisiae a D.melanogaster kromě C.elegans . V současné době byly do Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ) uloženy struktury šesti proteinů. Podrobné informace o stavu těchto 340 cílů C.elegans byly zařazeny do databáze WormBase a budou pravidelně aktualizovány.

NCBI KOGs

KOGs jsou verzí konzervovaných ortologických skupin (Conserved Orthologous Groups), která byla původně navržena v NCBI pro mikrobiální genomy ( 14 ), specifickou pro eukaryota. KOG jsou definovány trojúhelníkem vzájemných nejlepších shod BLASTP mezi doménami proteinů eukaryot z vysoce divergentních druhů ( 14 ). V posledním roce byly do databáze WormBase začleněny tyto anotace KOG spolu s dalšími homologickými skupinami ( 14 ). V současné době obsahuje databáze WormBase 4852 KOG, což zahrnuje produkt 9427 genů kódujících proteiny C.elegans (tj. 48 % všech předpokládaných genů kódujících proteiny ve WS129).

Vnitřní změny datového modelu a nové identifikátory

Backendovou databází databáze WormBase je ACeDB ( http://www.acedb.org ) ( 4 ). Během minulého roku jsme změnili způsob, jakým je v databázi reprezentována řada datových typů. Tyto změny schématu databáze nemají vliv na běžné uživatele. Pokročilí uživatelé, kteří píší skripty pro přístup k WormBase, o nich však musí vědět. Mezi významné změny modelu patří zavedení jednotné třídy Gene ( http://wormbase.org/db/misc/model?class=Gene ), která uchovává všechny důležité informace o genu. Dříve byly tyto informace rozptýleny mezi několika vzájemně propojenými třídami. Zároveň jsme zavedli třídy CDS a Transcript pro lepší správu vztahů mezi sestřihanými transkripty a jejich produkty a výrazně jsme zlepšili odvozování struktury transkriptů ze sekvencí cDNA a EST.

Spolu s těmito změnami jsme zavedli stabilní anonymní identifikátory pro geny ve tvaru WBGene00006741 a pro dokumenty ve tvaru WBPaper0005637 ve stejné podobě jako identifikátory osob ve tvaru WBPerson241. Tyto identifikátory sledují různé názvy, které byly pro příslušnou entitu použity, a měly by být pokud možno používány pro křížové odkazy v databázích. Webová stránka podporuje adresy URL ve tvaru http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Otázky týkající se datových modelů můžete směřovat na adresu [email protected] .

VYLEPŠENÍ UŽIVATELSKÉHO ROZHRANÍ

Vylepšení prohlížeče genomu WormBase

Prohlížeč genomu je ústřední součástí WormBase, která umožňuje uživatelům vizualizovat struktury genových modelů a jejich podpůrné důkazy, jakož i další funkce, jako jsou jednonukleotidové polymorfismy (SNP), repetitivní prvky a experimentální činidla. Během posledního roku byl prohlížeč v několika ohledech vylepšen: (i) podpora škálovatelné vektorové grafiky ( SVG ) . Obrázky z prohlížeče genomu WormBase se hojně používají v prezentacích a ilustracích publikací ( 2 , 3 , 17 ), ale jejich bitmapová povaha vede při tisku ve vysokém rozlišení k degradaci obrazu. Nedávno jsme přidali možnost, která uživatelům databáze WormBase umožňuje stahovat zadané obrázky genomového prohlížeče jako soubory SVG ( http://www.w3.org/TR/SVG/ ), které lze zobrazovat, upravovat a tisknout ve vysokém rozlišení pomocí softwaru kompatibilního s SVG, jako je například Adobe Illustrator 10 . (ii) Zvýraznění funkcí . Pro usnadnění lokalizace a vizualizace zajímavých rysů nyní WormBase zvýrazňuje žlutým pozadím rys, který uživatelé našli při vyhledávání. Tato změna je užitečná zejména tehdy, když uživatelé procházejí ve velkém okně se zapnutými vícenásobnými stopami. (iii) Nepřekládané oblasti ( UTR ). Vnitřní datový model i vizuální zobrazení byly nyní upraveny tak, aby zobrazovaly nepřekládané úseky transkriptů a také vnitřní spliky, které se vyskytují v rámci 5′- nebo 3′-UTR. (iv) Více stop funkcí , včetně SNP, značek SAGE, operonů, poly(A) míst a předpokládaných signálních sekvencí. (v) Podpora DAS . Prohlížeč genomu lze nyní používat jako prohlížeč stop Distributed Annotation System (DAS) ( 18 ), což uživatelům umožňuje superponovat vlastní anotace na stopy WormBase.

Stránka zarovnání EST a stránka zarovnání proteinů

WormBase nyní udržuje zarovnání EST, cDNA a dalších sekvencí na úrovni nukleotidů jak v rámci druhu, tak mezi druhy. Například zarovnání mezi genomy C.elegans a C.briggsae lze zobrazit jak v zobrazení s nízkým rozlišením, které zdůrazňuje vztah mezi skupinou kolineárních genů ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), tak v zobrazení textového zarovnání s vysokým rozlišením, které ukazuje rozdíly v jednotlivých nukleotidech. EST a cDNA z C.elegans a dalších hlístic lze zobrazit v zobrazení vícenásobného zarovnání, které zvýrazňuje chybná zarovnání a mezery ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

Na úrovni proteinů udržuje WormBase seznam nejlepších shod BLAST s nejdelšími proteinovými produkty jiných významných druhů včetně člověka ( H.sapiens ), myši ( Mus musculus ), potkana ( Rattus norvegicus ), mouchy ( D.melanogaster ), kvasinky ( S.cerevisiae ) a C.briggsae , které společně mohou poskytnout náhled na funkci příbuzných genů. Všechny výsledky BLAST jsou hypertextově propojeny s příslušným záznamem v příslušné databázi modelových organismů nebo případně se Swiss-Prot/TrEMBL. Zobrazení vícenásobného zarovnání zvýrazňuje konzervované aminokyselinové zbytky pomocí barevného kódu založeného na chemických vlastnostech zbytků ( obrázek 2 ).

Obrázek 2.

Stránka pro zarovnání proteinů.

Obrázek 2.

Stránka pro zarovnání proteinů.

Mapa stránek WormBase a slovníček WormBase

V uplynulém roce jsme přidali mapu stránek WormBase ( http://wormbase.org/db/misc/site_map ), která poskytuje přehled o rostoucím počtu webových stránek. Uživatelé mají přístup k této mapě přímo z navigačního banneru v horní části každé stránky WormBase. Stránka mapy webu obsahuje seznam všech stránek WormBase a poskytuje uživatelům různé pohledy. Uživatelé mohou například zvolit „Podrobné zobrazení“ a získat stručný přehled jednotlivých stránek před jejich procházením. A „Abecední zobrazení“ zobrazuje vyhledané stránky v abecedním pořadí. Nedávno byla na WormBase zřízena stránka se slovníčkem pojmů ( http://dev.wormbase.org/db/misc/glossary ), která uvádí definice běžných pojmů používaných na stránkách.

WormBase JAKO PLATFORMA PRO DOBÝVÁNÍ DAT

S tím, jak biologové začínají sofistikovaněji využívat rozsáhlé soubory dat, roste potřeba zdroje, který by byl více než jen úložištěm typu „ukaž a klikni“, ale poskytoval by také nástroje pro analýzu a dobývání dat. Tato část stručně popisuje stávající a nedávno zavedené funkce, díky nimž je WormBase vhodná pro dolování dat.

Přístup k WormBase a její vyhledávání

Existuje pět různých metod přístupu k WormBase, z nichž každá je vhodná pro jiný soubor účelů. Uživatelé si mohou vybrat nejvhodnější metody přístupu podle svých zkušeností a potřeb.

  • Procházení webových stránek . Jedná se o jednorázový přístup. Uživatelé WormBase obvykle vstupují do WormBase z titulní stránky a vyhledávají gen (nebo jiné položky), který je zajímá, ve vyhledávacím poli. Alternativně mohou uživatelé otevřít mapu stránek WormBase kliknutím na odkaz v horním navigačním banneru a zadat konkrétní webovou stránku pro vyhledávání, a to buď podle sekvence (BLAST nebo BLAT), nebo podle textu. Jakmile uživatelé najdou položku, která je zajímá, mohou procházet související webové stránky pomocí odkazů. Výhodou práce s WormBase tímto způsobem je, že uživatelé mohou získat podrobné pohledy a informace o položkách, které je zajímají.

  • Dávkové vyhledávání . Uživatelé WormBase stále častěji potřebují získávat dávkové sestavy na míru. K řešení této potřeby poskytuje WormBase dvě webové vyhledávací stránky: „Batch Genes“ a „Batch Sequences“ ( 2 ). Stránka Batch Genes (Dávkové geny) umožňuje uživatelům vyhledat všechna biologicky zajímavá pole genových údajů, od ID externích databází až po proteinové motivy, termíny GO, genomické pozice, fenotypy a základní sekvence DNA a proteinů. Tato stránka dává uživatelům možnost stáhnout výsledky v prostém textu nebo ve formátu HTML a poskytuje různé způsoby výběru sady genů, které je zajímají. Stránka Dávkové sekvence je ideální pro získávání dat založených na sekvencích, jako jsou UTR, introny, předpokládané promotorové elementy atd. Tuto funkci lze například použít k vygenerování sekvenčních souborů sestávajících z určité délky upstream sekvence z vybrané sady genů kódujících proteiny. Obě stránky jsou snadno přístupné z horního navigačního banneru. Výhodou tohoto způsobu vyhledávání je, že vrací výsledky pro velký počet položek (genů).

  • Vyhledávání v jazyce dotazu . Pro uživatele, kteří dobře ovládají dotazovací jazyky databáze ACeDB a znají modely databáze WormBase, představuje vyhledávání v dotazovacím jazyce rychlý a univerzální způsob vyhledávání v databázi WormBase. K dispozici jsou dvě stránky pro vyhledávání v dotazovacích jazycích: jedna pro dotazovací jazyk WormBase, původní dotazovací jazyk ACeDB, a druhá pro AQL, dotazovací jazyk ACeDB nového typu, který se více podobá SQL. Tyto stránky jsou přístupné ze stránky WormBase ‚Site Map‘. Pro uživatele, kteří nejsou obeznámeni s dotazovacími jazyky ACeDB, poskytují vyhledávací stránky instrukce a příklady dotazů. Hlavní výhodou je, že uživatelé mohou formulovat sofistikované dotazy ad hoc.

  • Soubor ke stažení . Uživatelé si mohou stáhnout celé sady genů nebo dokonce celou databázi jako takovou. WormBase poskytuje na svých stránkách FTP řadu výpisů z databáze, včetně souřadnic genů a dalších prvků, proteinových sekvencí, údajů o sestřihu genů a informací o genetickém mapování. Celý genom a jeho anotace jsou k dispozici v tabulkovém formátu, který lze načíst do různých relačních databází včetně MySQL, PostgreSQL a Oracle a dotazovat se v nich. Pro každou verzi je k dispozici tabulka, která propojuje produkty PCR, například používané pro microarrays a RNAi experimenty, s aktuálně anotovanými geny. WormBase také poskytuje celou databázi ve formátu ACeDB. Výhodou této metody je, že uživatelé nemusí být při vyhledávání dat závislí na internetu, takže jejich zpracování dat není omezeno přístupem k internetu. Problémy spojené s touto metodou spočívají v tom, že uživatelé musí být velmi dobře obeznámeni s povahou datových sad a databázových modelů.

  • Skriptování . Pro pokročilejší uživatele, kteří ovládají programování skriptů, poskytuje WormBase server s otevřeným přístupem „aceserver“ (na adrese http://aceserver.cshl.org ) pro přímý přístup k backendové databázi WormBase ( 19 ). Stránka WormBase s návodem na vytěžování dat poskytuje výzkumným pracovníkům podrobnosti o tom, jak se připojit k těmto databázím pomocí aplikačního programovacího rozhraní Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), spolu s úložištěm skriptů s opakovaně použitelnými skripty v Perlu. Uživatelé mohou tyto skripty spouštět na svých místních počítačích a používat je jako šablony pro úpravu vlastních skriptů. Největší výhodou je, že uživatelé se mohou dotazovat, formátovat a zpracovávat výsledky vyhledávání v rozsahu, jaký si přejí. Zřejmou nevýhodou je, že uživatelé musí získat určité programátorské dovednosti. U pokročilých uživatelů je však tento způsob stále oblíbenější.

Specializované nástroje pro dolování dat

Jako platforma pro sekvenční analýzu zpřístupnila WormBase uživatelům velké množství nástrojů pro sekvenční analýzu. Mezi tyto nástroje patří BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner a protein aligner. V minulém roce byly do databáze WormBase přidány také dva nové nástroje pro vyhledávání dat: Textpresso ( http://www.textpresso.org ) ( 23 ), nástroj pro vyhledávání literatury, a CisOrtho ( 24 ), nástroj pro srovnávací vyhledávání cis-elementů. Textpresso je fulltextový vyhledávací nástroj, který dává výzkumným pracovníkům možnost prohledávat korpus všech literárních fondů WormBase, což zahrnuje značné procento literatury o C.elegans a C.briggsae. V současné době obsahuje databáze Textpresso 19 985 kurátorovaných dokumentů, z nichž 4420 má plné texty. Tyto dokumenty pocházejí ze čtyř hlavních zdrojů: (i) dokumenty CGC . Jedná se o články z vědeckých časopisů, které spravuje Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) abstrakty z Worm Meetings ; (iii) abstrakty z Worm Breeders Gazette ; a (iv) Miscellaneous . Jedná se o různé další abstrakty obsahující údaje o C.elegans a C.briggsae . Další užitečnou funkcí programu Textpresso je, že vrací věty, které obsahují klíčová slova, s odkazy na stránky WormBase paper a stránky PubMed.

CisOrtho ( 24 ) pracuje tak, že vychází z konsensuálního vazebného místa, které je reprezentováno jako váhová matice. Identifikuje potenciální místa v předem filtrovaném genomu a poté je dále filtruje posouzením zachování předpokládaného místa v genomu příbuzného druhu, což je proces nazývaný fylogenetická stopa. CisOrtho je k dispozici na adrese http://www.wormbase.org/cisortho/ .

DATABÁZE ZAMRAZUJE

V minulosti představovala politika čtrnáctidenní aktualizace databáze WormBase problém pro výzkumné pracovníky, kteří publikovali výsledky založené na vytěžování databáze WormBase, protože v době, kdy byly jejich výsledky publikovány, byla verze databáze WormBase, na níž založili svou analýzu, již překonána. Abychom napomohli citovatelnosti a reprodukovatelnosti takového výzkumu, přijali jsme novou politiku, podle níž se každé desáté vydání WormBase stává zmrazeným vydáním. Zmrazená vydání jsou dostupná na věčné časy na speciálně určených stránkách WormBase s názvy http://ws100.wormbase.org , http://ws110.wormbase.org atd. První zmrazené vydání bylo http://ws100.wormbase.org , vydané 10. května 2003. Poslední zmrazené vydání je http://ws130.wormbase.org , vydané 16. srpna 2004. Výzkumným pracovníkům se doporučuje provádět rozsáhlé analýzy na zmrazeném vydání a uvádět číslo vydání ve svých publikacích. Ukazatele na všechna zmrazená vydání jsou zobrazeny na titulní stránce živého webu WormBase.

SPOLUPRÁCE S JINÝMI DATABÁZEMI MODELOVÝCH ORGANISMŮ

WormBase je součástí projektu GMOD ( 25 , 26 ), což je široká spolupráce mezi databázemi modelových organismů s cílem vyvinout společné slovníky, datové modely, softwarové nástroje a uživatelská rozhraní použitelné pro všechny databáze komunity modelových organismů. V rámci tohoto projektu poskytuje WormBase odkazy založené na sekvenční podobnosti mezi svými genovými stránkami a genovými stránkami FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) a Reactome ( http://www.reactome.org ). Plánují se odkazy na RGD ( 30 ) a MGD ( 31 ).

Nedávno byla v rámci projektu GMOD vyvinuta společná reprezentace znaků genomických sekvencí známá jako sekvenční ontologie ( http://song.sourceforge.net ), která usnadňuje výměnu genomických anotací mezi různými MOD a podporuje používání společných analytických a vizualizačních nástrojů. Účastníci GMOD již na svých webových stránkách používají společné softwarové balíčky pro vizualizaci genomových anotací, kreslení genetických map a vyhledávání v literatuře a toto sbližování se v blízké budoucnosti ještě prohloubí, jak budou MODy směřovat k jednotné genové stránce.

BUDOUCÍ SMĚRY

WormBase se vyvinula z ACeDB ( http://www.acedb.org ) na databázi, která zahrnuje kurátorství literatury a biologii C.elegans ( 4 ), a nedávno na databázi obsahující biologii a genomické údaje více druhů hlístic ( 2 , 3 ). Na databázi WormBase se stále pracuje. Pokud jde o uživatelské rozhraní, budoucí vylepšení zahrnují WormMart, který je založen na BioMart, pokročilém systému dotazování a vytváření zpráv, který byl poprvé vyvinut pro použití s Ensembl ( 32 ). Pokud jde o data, těšíme se na sekvenování a anotaci genomů dalších tří druhů hlístic ( http://genome.gov/page.cfm?pageID=10002154 ), čímž se počet genomů Caenorhabditis udržovaných databází WormBase zvýší na pět. V průběhu roku 2005 plánuje WormBase zavést prohlížeč intermediárního metabolismu hlístic a biologických drah vyššího řádu. Prohlížeč cest a základní soubor dat budou vyvinuty ve spolupráci s projekty Reactome a MetaCyc ( http://metacyc.org/ ) ( 33 ). Společně poskytnou bezkonkurenční zdroj pro pitvu funkčních prvků v genomech Caenorhabditis a poskytnou cenné poznatky o evoluci a biologických adaptacích těchto organismů.

Konsorcium WormBase se bude i nadále zabývat otázkami, které vznesli uživatelé WormBase, a udržovat jak jednoduché a přívětivé uživatelské rozhraní, tak přidávat další vyhledávací a výzkumné nástroje, aby umožnilo vývoj WormBase z datového úložiště ve zdroj, který budou moci využívat všichni biologové s cílem maximalizovat hodnotu výzkumu modelových organismů C.elegans a jeho příbuzných.

Jako vždy uvítáme připomínky, dotazy, opravy a zasílání dat ( [email protected] ).

Online verze tohoto článku byla publikována v rámci modelu otevřeného přístupu. Uživatelé jsou oprávněni používat, reprodukovat, šířit nebo vystavovat verzi tohoto článku s otevřeným přístupem pro nekomerční účely za předpokladu, že: je řádně a úplně uvedeno původní autorství; časopis a Oxford University Press jsou uvedeny jako původní místo vydání s uvedením správných citačních údajů; pokud je článek následně reprodukován nebo šířen nikoliv jako celek, ale pouze částečně nebo jako odvozené dílo, musí to být jasně uvedeno. Ohledně povolení ke komerčnímu opakovanému použití se prosím obraťte na [email protected] .

P.W.S. je výzkumným pracovníkem Howard Hughes Medical Institute. Děkujeme Sheldonu McKayovi a Krisu Gunsalusovi za kritické přečtení rukopisu. WormBase je podporována grantem P41-HG02223 amerického Národního ústavu pro výzkum lidského genomu a britské Rady pro lékařský výzkum.

Riddle,D.L., Blumenthal,T., Meyer,B.J. a Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: vícedruhový zdroj pro biologii a genomiku hlístic.

Nucleic Acids Res.

,

32

(vydání databáze),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: mezidruhová databáze pro srovnávací genomiku.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. a Spieth,J. (

2001

) WormBase: síťový přístup ke genomu a biologii Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86 .

The C.elegans Sequencing Consortium (

1998

) Sekvence genomu nematoda C.elegans : platforma pro zkoumání biologie.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Systematická funkční analýza genomu Caenorhabditis elegans pomocí RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. a Davidson,G.S. (

2001

) Mapa genové exprese pro Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) Mapa interaktomové sítě metazoa C. elegans .

Science

,

303

,

540

-543 .

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. a Marra,M.A. (

2001

) Změny v genové expresi spojené se zastavením vývoje a dlouhověkostí u Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, svazek 68, str. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) Sekvence genomu Caenorhabditis briggsae : platforma pro srovnávací genomiku.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) Databáze COG: aktualizovaná verze zahrnuje eukaryota.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genome annotation by high-throughput 5′ RNA end determination.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) Sada nástrojů Bioperl: Perl moduly pro vědy o živé přírodě.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. a Stein,L. (

2001

) Distribuovaný anotační systém.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. a Thierry-Mieg,J. (

1998

) Skriptovatelný přístup ke sekvenci genomu Caenorhabditis elegans a dalším databázím ACEDB.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. a Gish,W. (

2003

) Server WU-Blast2 v Evropském bioinformatickém institutu.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Mapování sekvencí pomocí elektronické PCR.

Genome Res.

,

7

,

541

-550.

Genome Res.

Muller,H.M., Kenny,E. a Sternberg,P. (

2004

) Testpresso: systém vyhledávání a extrakce informací pro literaturu o C. elegans založený na ontologii.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. a Hobert,O. (

2004

) CisOrtho: programový pipeline pro celogenomovou identifikaci cílových genů transkripčních faktorů pomocí fylogenetického footprintingu.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: editor pro anotaci sekvencí.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a building block for a model organism system database.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) Databáze FlyBase projektů genomu Drosophila a komunitní literatury.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) poskytuje nástroje pro identifikaci a analýzu sekvencí ze Saccharomyces cerevisiae a příbuzných sekvencí z jiných organismů.

Nucleic Acids Res.

,

32

(vydání databáze),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(vydání databáze),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): mapování onemocnění na genom.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) The Mouse Genome Database (MGD): integrace biologie s genomem.

Nucleic Acids Res.

,

32

(vydání databáze),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. a Birney,E. (

2004

) EnsMart: obecný systém pro rychlý a flexibilní přístup k biologickým datům.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. a Karp,P.D. (

2004

) MetaCyc: multiorganismová databáze metabolických drah a enzymů.

Nucleic Acids Res.

,

32

(vydání databáze),

D438

-D442.

Poznámky autora

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute a California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK a 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA