Articles

WormBase: átfogó adatforrás a Caenorhabditis biológiájához és genomikájához

Abstract

A WormBase ( http://www.wormbase.org ), a Caenorhabditis elegans és a rokon fonálférgek modellorganizmusainak adatbázisa egyre bővül. Az elmúlt évben a WormBase több nagyméretű adatkészlettel bővült, beleértve a SAGE, az interaktom, a 3D fehérjeszerkezeti adatkészleteket és az NCBI KOG-okat. E növekedéshez igazodva a Nemzetközi WormBase Konzorcium új funkciókkal javította a felhasználói felületet, amelyek segítik a navigációt, a nagyméretű adathalmazok vizualizációját, a fejlett keresést és az adatbányászatot. Belsőleg átstrukturáltuk az adatbázis-modelleket, hogy racionalizáljuk a gének reprezentációját, és hogy felkészítsük a rendszert arra, hogy a következő évben további három Caenorhabditis faj genomszekvenciáit is befogadja.

Fogadva 2004. augusztus 21-én; átdolgozva és elfogadva 2004. október 5-én

LEÍRÁS

A WormBase a Caenorhabditis elegans és Caenorhabditis briggsae biológiai és genomikai modellorganizmus adatbázis . Ez egy gyorsan fejlődő erőforrás, amelyet az a tény vezérel, hogy a C.elegans-t széles körben használják modellorganizmusként számos orvosbiológiai kutatási témában, beleértve a fejlődést, az idegtudományt, az apoptózist és az öregedést ( 1 – 4 ), és egyre szélesebb körű nagy áteresztőképességű adatok állnak rendelkezésre hozzá. A C. elegans genomszekvenciája ( 5 ) fellendítette az egész genomra kiterjedő kutatási projekteket, többek között az ORFeome ( 6 ), az RNS-interferencia (RNAi) ( 7 ), a microarray ( 8 ), az interaktom (genom-összességű fehérje-fehérje kölcsönhatások) ( 9 ), a génexpresszió sorozatos elemzése (SAGE) ( 10 , 11 ) és más génexpressziós profilalkotási technikák ( 11 ). Ezek a nagyméretű adathalmazok óriási mértékben gazdagították a WormBase tartalmát ( 2 , 3 ). A közelmúltban a C.elegans mellett a teljes C.briggsae genomszekvencia ( 12 ) is rendelkezésre állt, ami a WormBase-t a Caenorhabditides nemzetségen belüli összehasonlító genomika platformjává tette ( 13 ).

A négy intézmény több mint 30 tudósából álló nemzetközi WormBase-konzorcium ( http://wormbase.org/about/people.html ) összegyűjti és annotálja a C.elegans , a C.briggsae és a rokon fonálférgek nagy és kis méretű adatkészleteit, azokat egyetlen nyilvános adatbázisba rendezi, és a WormBase weboldalon böngészhetővé és letölthetővé teszi. A kutatóközösséggel való kapcsolattartás révén közvetlenül letétbe helyezett adatok megszerzése mellett a konzorcium felülvizsgálja és kivonja az adatokat a teljes Caenorhabditis publikált irodalomból. Az adatbázis új kiadásait kéthetente teszik elérhetővé, így biztosítva, hogy az új és frissített adatkészletek időben rendelkezésre álljanak a közösség számára. Ez a tanulmány áttekinti a WormBase tartalmának közelmúltbeli fejlődését és a felhasználói felület fejlesztéseit, elmagyarázza, hogyan fejlődik a WormBase, és megvitatja az adatokhoz való hozzáférés különböző módszereit. A tanulmány a következő évre tervezett új funkciók megvitatásával zárul.

Újabb kiegészítések a WormBase TARTALOMHOZ

Az elmúlt évben jelentősen megnöveltük néhány meglévő adatkészlet méretét. Például ötszörösére nőtt a microarray-adatpontok száma, és drámai, 13-szorosára nőtt a microarray-kísérletek száma, 8 kísérletről (amelyekről 2 közleményben számoltunk be) 113 kísérletre (amelyekről 15 közleményben számoltunk be). A nem vad típusú fenotípust eredményező RNAi-kísérletek száma is több mint kétszeresére nőtt az elmúlt évben.

Továbbra is finomítjuk a C.elegans génmodelleket az irodalomban megjelenő új adatok, a nyilvános nukleotid-adatbázisokban (GenBank/EMBL/DDBJ) található új szekvenciaadatok és a Worm közösség személyes közlései alapján. A legtöbb kurátori tevékenység a meglévő génmodellek szerkezetének finomítására irányul. Ugyanakkor továbbra is eltávolítjuk azokat a génjóslásokat, amelyek már nem érvényesek (pl. nagyon rövid nyitott olvasókeretek), és adott esetben folyamatosan új génjóslásokat adunk hozzá (amelyek általában egy meglévő gén új izoformáinak felelnek meg). Annak ellenére, hogy nagyszámú gént hoztunk létre és távolítottunk el, a teljes génszám (a fehérjekódoló gének esetében) az év során csak kis mértékben nőtt (+22 gén). Ezzel ellentétben a fehérjekódoló gének aránya, amelyeket most már transzkripciós adatokkal is megerősítettek (azaz ahol minden kódoló exon rendelkezik transzkripciós támogatással), ugyanebben az időszakban 20%-kal nőtt (4663-ról 5569-re). Ez annak köszönhető, hogy több transzkript adat áll rendelkezésre, és a kurátorok a génmodellek finomításán dolgoznak, hogy azok jobban illeszkedjenek a rendelkezésre álló transzkript adatokhoz. Jelentősen javítottuk azokat a módszereket is, amelyekkel a transzkripteket a genomra leképezzük és a génmodellekhez kapcsoljuk.

Ugyanebben az időszakban a WormBase számos új nagyméretű kísérleti és elméleti adatkészlettel bővült. A figyelemre méltó kiegészítések közé tartoznak a nagyméretű SAGE-adatkészletek ( 10 , 11 ), az interaktom-adatkészlet ( 9 ), a 3D szerkezeti adatok és a National Center for Biotechnology Information (NCBI) KOGs ( 14 ) prediktált ortológ csoportok készlete. A közelmúltban az újonnan kifejlesztett transz-spliced exon coupled RNA end determination (TEC-RED) technikát alkalmazták a C. elegansban kifejezett gének 5′ végének vizsgálatára ( 15 ), és az adathalmazt jelenleg kuratálják és beviszik a WormBase adatbázisba.

Genomszintű SAGE

A SAGE ( 10 , 11 ) egy érzékeny technika a genomszintű génexpressziós szintek vizsgálatára, amely jól kiegészíti a microarray-alapú technikákat. A WS123 kiadástól kezdve a WormBase 12 SAGE-könyvtár eredményeit tartalmazza, amelyek közül kettőt korábban már publikáltak ( 10 ). A 12 könyvtár különböző fejlődési stádiumokat ( 11 ) fed le az embriótól a felnőttig, és 20 417 gént (kódoló szekvenciákat, WS129) érint, amelyek a WormBase-ben a C.elegans genomban annotált összes gén 91,9%-ának felelnek meg (22 213, beleértve az alternatív módon splicelt kódoló szekvenciákat, WS129). A génnek megfelelő SAGE-címkék a WormBase génoldalának alján találhatók (pl. http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ), és egy új SAGE-jelentőoldalon ( 1. ábra ) a SAGE-címke különböző életszakaszokban való előfordulását részletező információkhoz kapcsolódnak.

1. ábra.

SAGE report page.

1. ábra.

SAGE report page.

Interaktom

Egy fehérje kölcsönhatási hálózatának feltárása gyakran kulcsfontosságú biológiai szerepének megértéséhez. A WormBase tartalmazza az “Interaktom-projekt” (“Interactome Project”) eredményeit, amely az élesztő-kéthibrid (Y2H) technikán alapuló nagyszabású szűrés ( 9 ). A jelenlegi adatkészletben a csalétek olyan génekre irányul, amelyek vagy homológok az emberi génekkel, vagy multicelluláris funkciójúak (olyan gének, amelyeknek homológjuk van multicelluláris szervezetekben, többek között a Drosophila melanogasterben , a Homo sapiensben és az Arabidopsis thaliana-ban, de nem a Saccharomyces cerevisiae-ben ), vagy amelyeknek ismert szerepük van a mitózisban és a meiózisban. Jelenleg a WormBase 5534 kölcsönhatást tartalmaz, amelyek a C.elegans proteom 15%-át fedik le. A felhasználók ezeket a kölcsönhatásokat a génösszefoglaló oldalon tekinthetik meg.

Protein háromdimenziós struktúrák

Ez a kicsi, de fontos adathalmaz a Northeast Structural Genomics Consortium ( http://www.nesg.org ) munkája, amelynek célja 340 C.elegans célpont előállítása. A konzorcium elsődleges célpontjai a C.elegans mellett eukarióta modellorganizmusok, köztük az S.cerevisiae és a D.melanogaster fehérjéire koncentrálnak . Jelenleg hat fehérje szerkezetét helyezték el a Protein Data Bankban (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). E 340 C.elegans-célpont állapotára vonatkozó részletes információk bekerültek a WormBase adatbázisba, és rendszeresen frissítésre kerülnek.

NCBI KOGs

A KOGs az NCBI-ben eredetileg a mikrobiális genomok számára kidolgozott konzervált ortológ csoportok eukarióta-specifikus változata ( 14 ). A KOG-okat a nagymértékben eltérő fajokból származó eukarióta fehérjék doménjei közötti kölcsönös legjobb BLASTP-találatok háromszöge határozza meg ( 14 ). Az elmúlt év során a WormBase más homológiacsoportokkal együtt beépítette ezeket a KOG-jegyzeteket ( 14 ). Jelenleg a WormBase 4852 KOG-ot tartalmaz, amely 9427 C.elegans fehérjekódoló gén termékét tartalmazza (azaz a WS129 összes előrejelzett fehérjekódoló génjének 48%-át).

BELI ADATMODELL VÁLTOZÁSOK ÉS ÚJ IDENTIFIKÁCIÓK

A WormBase backend-adatbázisa az ACeDB ( http://www.acedb.org ) ( 4 ). Az elmúlt év során megváltoztattuk számos adattípus ábrázolásának módját az adatbázisban. Az adatbázis sémájának e változásai nem érintik a szokásos felhasználókat. A haladó felhasználóknak azonban, akik szkripteket írnak a WormBase eléréséhez, tisztában kell lenniük velük. A modell jelentős változásai közé tartozik az egységesített Gene osztály ( http://wormbase.org/db/misc/model?class=Gene ) bevezetése, amely egy génre vonatkozó összes releváns információt tartalmaz. Korábban ezek az információk több, egymással összefüggő osztály között voltak szétszórva. Ugyanakkor bevezettük a CDS és a Transcript osztályokat, hogy jobban kezeljük a spliced transzkriptek és termékeik közötti kapcsolatokat, és jelentősen javítottuk a transzkriptek szerkezetének levezetését a cDNS és EST szekvenciákból.

Ezekkel a változtatásokkal párhuzamosan stabil anonim azonosítókat vezettünk be a gének számára a WBGene00006741 formájú, és a dolgozatok számára a WBPaper0005637 formájú, a WBPerson241 formájú személyazonosítókkal megegyező formában. Ezek az azonosítók követik a megfelelő entitásra használt különböző neveket, és amennyiben lehetséges, ezeket kell használni az adatbázisok kereszthivatkozásaihoz. A weboldal a http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Az adatmodellekkel kapcsolatos kérdéseket a [email protected] címre lehet intézni.

HASZNÁLÓI INTERFACE BŐVÍTÉSEK

A WormBase genom böngészőjének bővítései

A genom böngésző a WormBase központi eleme, amely lehetővé teszi a felhasználók számára a génmodell struktúrák és az azokat alátámasztó bizonyítékok, valamint más jellemzők, például az egynukleotid-polimorfizmusok (SNP-k), ismétlődő elemek és kísérleti reagensek megjelenítését. Az elmúlt évben a böngésző több szempontból is továbbfejlesztésre került: (i) skálázható vektorgrafikák ( SVG ) támogatása . A WormBase genomböngésző képeit széles körben használták prezentációkban és publikációk illusztrációiban ( 2 , 3 , 17 ), de bitmapping jellegük nagy felbontású nyomtatáskor a kép romlásához vezet. A közelmúltban olyan lehetőséggel bővítettük, amely lehetővé teszi a WormBase felhasználók számára, hogy a megadott genom böngésző képeket SVG fájlokként ( http://www.w3.org/TR/SVG/ ) töltsék le, amelyek nagy felbontásban megjeleníthetők, szerkeszthetők és nyomtathatók SVG-kompatibilis szoftverekkel, például az Adobe Illustrator 10 segítségével. (ii) Jellemzők kiemelése . Az érdeklődésre számot tartó jellemzők megtalálásának és megjelenítésének elősegítése érdekében a WormBase mostantól sárga háttérrel kiemeli a felhasználók által a keresés során talált jellemzőt. Ez a változtatás különösen akkor hasznos, ha a felhasználók nagy ablakméretben böngésznek, több pálya bekapcsolásával. (iii) Nem transzlált régiók ( UTR ) . Mind a belső adatmodell, mind a vizuális megjelenítés mostantól úgy módosul, hogy a transzkriptek nem transzlált szakaszait, valamint az 5′- vagy 3′-UTR-eken belül előforduló belső spliceket is megjeleníti. (iv) Több feature track , beleértve az SNP-ket, SAGE-tageket, operonokat, poli(A)-helyeket és prediktált szignálszekvenciákat. (v) DAS-támogatás . A genomböngésző mostantól a Distributed Annotation System (DAS) ( 18 ) sávok megjelenítőjeként is használható, lehetővé téve a felhasználók számára, hogy saját annotációikat a WormBase sávokra helyezzék.

EST igazítási oldal és fehérje igazítási oldal

A WormBase mostantól fenntartja az EST-ek, cDNS-ek és más szekvenciák nukleotid szintű igazítását mind fajon belül, mind fajok között. Például a C.elegans és a C.briggsae genomok közötti igazítás megtekinthető egy alacsony felbontású nézetben, amely a kolineáris gének egy csoportja közötti kapcsolatot hangsúlyozza ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), vagy egy nagy felbontású szöveges igazítási nézetben, amely az egyes nukleotidok közötti különbségeket mutatja. A C.elegansból és más fonálférgekből származó EST-ek és cDNS-ek többszörös igazítási nézetben tekinthetők meg, amely kiemeli a hibás igazításokat és a hiányosságokat ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

Fehérje szinten a WormBase fenntartja a más fontos fajok, többek között az ember ( H.sapiens ), egér ( Mus musculus ), patkány ( Rattus norvegicus ), légy ( D.melanogaster ), élesztő ( S.cerevisiae ) és C.briggsae , leghosszabb fehérjetermékeivel való legjobb BLAST egyezések listáját, amelyek együttesen betekintést nyújthatnak a kapcsolódó gének működésébe. Minden BLAST-eredmény hiperhivatkozással kapcsolódik az adott modellorganizmus adatbázisának megfelelő bejegyzéséhez vagy a Swiss-Prot/TrEMBL-hez. A többszörös összehangolás megjelenítése a konzervált aminosavmaradványokat a maradékok kémiai tulajdonságain alapuló színkóddal emeli ki ( 2. ábra ).

2. ábra.

A fehérjeillesztési oldal.

2. ábra.

A fehérjeillesztési oldal.

WormBase oldaltérkép és WormBase glosszárium

Az elmúlt év során hozzáadtuk a WormBase oldaltérképét ( http://wormbase.org/db/misc/site_map ), hogy áttekintést nyújtson az egyre növekvő számú weboldalakról. A felhasználók ezt a térképet közvetlenül a minden WormBase-oldal tetején található navigációs bannerről érhetik el. A webhelytérkép oldal felsorolja a WormBase összes oldalát, és különböző nézeteket biztosít a felhasználók számára. A felhasználók például a “Részletes nézetet” választhatják, hogy az oldalak böngészése előtt rövid áttekintést kapjanak az egyes oldalakról. Az ‘Ábécés nézet’ pedig ábécésorrendben listázza a keresett oldalakat. A közelmúltban a WormBase létrehozott egy glosszárium oldalt ( http://dev.wormbase.org/db/misc/glossary ), amely az oldalon használt általános kifejezések definícióit sorolja fel.

A WormBase, mint az adatbányászat platformja

Ahogy a biológusok egyre kifinomultabb módon használják a nagyméretű adathalmazokat, egyre nagyobb szükség van egy olyan erőforrásra, amely több mint egy mutogatható adattár, hanem adatelemzési és adatbányászati eszközöket is biztosít. Ez a szakasz röviden ismerteti azokat a meglévő és nemrég bevezetett funkciókat, amelyek alkalmassá teszik a WormBase-t az adatbányászatra.

A WormBase elérése és lekérdezése

A WormBase elérésére öt különböző módszer áll rendelkezésre, amelyek mindegyike más-más célokra alkalmas. A felhasználók tapasztalatuknak és igényeiknek megfelelően választhatják ki a legmegfelelőbb hozzáférési módszereket.

  • Weboldal böngészése . Ez egy egyszerre egy elemet tartalmazó megközelítés. A WormBase felhasználói jellemzően a címlapról lépnek be a WormBase-be, és a keresőmezőben keresik meg az őket érdeklő gént (vagy más elemeket). Alternatívaként a felhasználók a felső navigációs bannerben található linkre kattintva megnyithatják a WormBase webhelytérképét, és beléphetnek egy adott weboldalra a kereséshez, akár szekvencia (BLAST vagy BLAT), akár szöveg alapján. Ha a felhasználók megtalálták az őket érdeklő elemet, a linkeket követve böngészhetnek a kapcsolódó weboldalakon. A WormBase-zel való ilyen módon történő munka előnye, hogy a felhasználók részletes nézeteket és információkat kaphatnak az őket érdeklő elemekről.

  • Tételes lekérdezés . A WormBase felhasználóknak egyre gyakrabban van szükségük egyedi kötegelt jelentések beszerzésére. Ennek az igénynek a kielégítésére a WormBase két webes keresőoldalt biztosít: “Batch Genes” és “Batch Sequences” ( 2 ). A “Batch Genes” oldal lehetővé teszi a felhasználók számára az összes biológiailag érdekes génadatmező lekérdezését, a külső adatbázis-azonosítóktól kezdve a fehérjemotívumokig, GO-terminusokig, genomiális pozíciókig, fenotípusokig és a mögöttes DNS- és fehérjeszekvenciákig. Ez az oldal lehetőséget ad a felhasználóknak arra, hogy az eredményeket egyszerű szöveges vagy HTML formátumban töltsék le, és számos lehetőséget biztosít az érdeklődésre számot tartó génkészlet kiválasztására. A Batch Sequences oldal ideális a szekvencia alapú adatok, például UTR-ek, intronok, feltételezett promóter elemek stb. lekérdezésére. Ez a lehetőség például arra használható, hogy egy kiválasztott fehérjekódoló génkészletből egy meghatározott hosszúságú upstream szekvenciából álló szekvenciafájlokat hozzon létre. Mindkét oldal könnyen elérhető a felső navigációs bannerről. Ennek a keresési módszernek az az előnye, hogy nagyszámú elemre (génre) ad eredményt.

  • Keresési nyelvi keresés . Az ACeDB adatbázis lekérdezési nyelveiben jártas és a WormBase adatbázis-modelleket ismerő felhasználók számára a lekérdezési nyelvű keresés a WormBase keresésének gyors és sokoldalú módszerét jelenti. Két lekérdezési nyelvi keresőoldal áll rendelkezésre: az egyik a WormBase Query Language, az eredeti ACeDB lekérdezési nyelv, a másik pedig az AQL, az új stílusú ACeDB lekérdezési nyelv, amely jobban hasonlít az SQL-hez. Ezek az oldalak a WormBase ‘Site Map’ oldaláról érhetők el. Azon felhasználók számára, akik nem ismerik az ACeDB lekérdezési nyelveket, a keresési oldalak utasításokat és példakérdéseket tartalmaznak. A fő előnye, hogy a felhasználók kifinomult ad hoc lekérdezéseket fogalmazhatnak meg.

  • Ömlesztett letöltések . A felhasználók teljes génkészleteket vagy akár magát a teljes adatbázist is letölthetik. A WormBase számos adatbázis-kivonatot kínál az FTP-oldalán, beleértve a gének és egyéb jellemzők koordinátáit, fehérjeszekvenciákat, génsplicing-adatokat és genetikai térképezési információkat. A teljes genom és annak annotációi táblázatos formátumban állnak rendelkezésre, amely betölthető és lekérdezhető különböző relációs adatbázisokba, beleértve a MySQL-t, a PostgreSQL-t és az Oracle-t is. Minden egyes kiadáshoz rendelkezésre áll egy táblázat, amely összekapcsolja az olyan PCR-termékeket, mint amilyeneket a microarrays és az RNAi-kísérletekhez használnak, az aktuálisan annotált génekkel. A WormBase a teljes adatbázist ACeDB formátumban is rendelkezésre bocsátja. Ennek a módszernek az az előnye, hogy a felhasználóknak nem kell az internetre támaszkodniuk az adatok lekérdezéséhez, így adatfeldolgozásukat nem korlátozza az internet-hozzáférés. Ezzel a módszerrel kapcsolatos probléma, hogy a felhasználóknak nagyon jól kell ismerniük az adatkészletek és az adatbázis-modellek jellegét.

  • Skriptelés . A haladóbb, szkriptprogramozásban jártas felhasználók számára a WormBase egy nyílt hozzáférésű “aceserver” kiszolgálót ( http://aceserver.cshl.org ) biztosít, amely közvetlen hozzáférést biztosít a WormBase backend adatbázisához ( 19 ). A WormBase adatbányászati útmutató oldala részletesen ismerteti a kutatókkal, hogyan lehet csatlakozni ezekhez az adatbázisokhoz a Perl ( http://www.perl.org ) alkalmazásprogramozási interfész, az AcePerl ( http://stein.cshl.org/AcePerl ) segítségével, valamint egy újrafelhasználható Perl-szkriptekből álló szkript-tárral együtt. A felhasználók ezeket a szkripteket helyi gépeiken futtathatják, és sablonként használhatják őket saját szkriptjeik testreszabásához. Ennek legnagyobb előnye, hogy a felhasználók az általuk kívánt mértékben lekérdezhetik, formázhatják és feldolgozhatják a keresési eredményeket. Nyilvánvaló hátránya, hogy a felhasználóknak el kell sajátítaniuk bizonyos programozási ismereteket. Ez azonban egyre népszerűbb a haladó felhasználók körében.

Speciális adatbányászati eszközök

Szekvenciaelemző platformként a WormBase számos szekvenciaelemző eszközt bocsátott a felhasználók rendelkezésére. Ezek közé az eszközök közé tartozik a BLAST ( 20 ), a BLAT ( 21 ), az ePCR ( 22 ), a koordinátatérképező, az EST alignner és a protein alignner. Az elmúlt évben két új adatbányászati eszközzel, a Textpresso ( http://www.textpresso.org ) ( 23 ), egy irodalomkereső eszközzel és a CisOrtho ( 24 ), egy összehasonlító cis -elemek keresésére szolgáló eszközzel is bővült a WormBase. A Textpresso egy teljes szöveges keresőmotor, amely lehetővé teszi a kutatók számára, hogy a WormBase teljes irodalmi állományában keressenek, amely magában foglalja a C.elegans és C.briggsae irodalom jelentős részét. Jelenleg a Textpresso adatbázisban 19 985 kurátori dokumentum található, amelyek közül 4420 teljes szöveggel rendelkezik. Ezek a dokumentumok négy fő forrásból származnak: (i) CGC-dokumentumok . Ezek a Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ) által fenntartott tudományos folyóiratcikkek; (ii) Worm Meetings absztraktok ; (iii) Worm Breeders Gazette absztraktok ; és (iv) Miscellaneous . Ezek különböző egyéb, a C.elegansra és a C.briggsae-re vonatkozó adatokat tartalmazó összefoglalók . A Textpresso egy másik hasznos funkciója, hogy visszaadja a kulcsszavakat tartalmazó mondatokat, a WormBase papíralapokra és PubMed oldalakra mutató linkekkel.

A CisOrtho ( 24 ) úgy működik, hogy egy konszenzusos kötőhelyből indul ki, amelyet súlymátrixként reprezentál. Azonosítja a potenciális helyeket egy előszűrt genomban, majd tovább szűri a feltételezett hely konzerváltságának értékelésével egy rokon faj genomjában, ezt a folyamatot filogenetikai lábnyomkeresésnek nevezik. A CisOrtho a http://www.wormbase.org/cisortho/ címen érhető el.

DATABASE FREEZES

A múltban a WormBase kéthetenkénti frissítési politikája problémát jelentett azon kutatók számára, akik a WormBase bányászatán alapuló eredményeket publikáltak, mivel mire eredményeiket publikálták, a WormBase azon verziója, amelyre elemzésüket alapozták, már elavult volt. Az ilyen kutatások idézhetővé és reprodukálhatóvá tételének elősegítése érdekében új politikát fogadtunk el, amelynek értelmében minden tizedik WormBase-kiadás befagyasztott kiadássá válik. A befagyasztott kiadások örökre elérhetők a WormBase külön erre a célra kijelölt, http://ws100.wormbase.org , http://ws110.wormbase.org és így tovább nevezett oldalain. Az első befagyasztott kiadás a 2003. május 10-én megjelent http://ws100.wormbase.org volt. A legutóbbi befagyasztott verzió a http://ws130.wormbase.org , amely 2004. augusztus 16-án jelent meg. A kutatókat arra ösztönzik, hogy nagyszabású elemzéseket végezzenek a befagyasztott kiadáson, és publikációikban hivatkozzanak a kiadás számára. Az összes befagyasztott kiadásra mutató mutató a WormBase élő honlapjának címlapján található.

MÁS MODELLSZERVEZETI ADATBÁZISOK EGYÜTTműködése

A WormBase része a GMOD projektnek ( 25 , 26 ), amely a modellorganizmus-adatbázisok széleskörű együttműködése a modellorganizmusok közös szókincsének, adatmodelljeinek, szoftvereszközeinek és felhasználói felületeinek kifejlesztése érdekében, amelyek a modellorganizmusok közösségének valamennyi adatbázisában alkalmazhatók. E projekt részeként a WormBase szekvencia-hasonlóságon alapuló linkeket biztosít génoldalai és a FlyBase ( 27 ), a The Saccharomyces Genome Database ( 28 , 29 ), az Ensembl ( 29 ) és a Reactome ( http://www.reactome.org ) génoldalai között. Tervben vannak az RGD ( 30 ) és az MGD ( 31 ) felé mutató linkek.

A közelmúltban a GMOD projekt kidolgozta a genomi szekvencia jellemzőinek közös reprezentációját, az úgynevezett szekvencia ontológiát ( http://song.sourceforge.net ), amely megkönnyíti a genomi annotációk cseréjét a különböző MOD-ok között, és ösztönzi a közös analitikai és vizualizációs eszközök használatát. A GMOD résztvevői már most is közös szoftvercsomagokat használnak honlapjaikon a genom annotációk vizualizálására, genetikai térképek rajzolására és az irodalomban való keresésre, és ez a konvergencia a közeljövőben tovább erősödik, ahogy a MOD-ok az egységes génoldal felé haladnak.

JÖVŐS IRÁNYOK

A WormBase az ACeDB-ből ( http://www.acedb.org ) a C.elegans irodalmi kurátori és biológiai adatait felölelő adatbázissá ( 4 ), majd a közelmúltban több fonálféregfaj biológiáját és genomikai adatait tartalmazó adatbázissá ( 2 , 3 ) fejlődött. A WormBase még mindig folyamatban lévő munka. A felhasználói felületet illetően a jövőbeni fejlesztések közé tartozik a WormMart, amely a BioMarton alapul, egy fejlett lekérdezési és jelentéskészítési rendszeren, amelyet először az Ensembl használatára fejlesztettek ki ( 32 ). Az adatfronton három további fonálféregfaj ( http://genome.gov/page.cfm?pageID=10002154 ) genomszekvenálását és annotálását várjuk, így a WormBase által fenntartott Caenorhabditis genomok száma ötre emelkedik. 2005 folyamán a WormBase tervezi a fonálférgek köztes anyagcseréjére és magasabb rendű biológiai útvonalakra vonatkozó böngésző bevezetését. Az útvonalböngészőt és az alapul szolgáló adathalmazt a Reactome és a MetaCyc ( http://metacyc.org/ ) ( 33 ) projektekkel együttműködve fejlesztik ki. Ezek együttesen páratlan erőforrást biztosítanak majd a Caenorhabditis genomokban található funkcionális elemek feltárásához, és értékes betekintést nyújtanak ezen organizmusok evolúciójába és biológiai alkalmazkodásába.

A WormBase konzorcium továbbra is foglalkozni fog a WormBase felhasználói által felvetett kérdésekkel, fenntartva mind az egyszerű és barátságos felhasználói felületet, mind pedig további keresési és kutatási eszközökkel kiegészítve azt, hogy a WormBase adattárból egy minden biológus által használható forrássá fejlődjön a C.elegans és rokonai modellorganizmus-kutatás értékének maximalizálása érdekében.

Mint mindig, most is szívesen fogadunk észrevételeket, kérdéseket, javításokat és adatszolgáltatást ( [email protected] ).

A cikk online változata nyílt hozzáférésű modellben jelent meg. A felhasználók jogosultak a cikk nyílt hozzáférésű változatának nem kereskedelmi célú felhasználására, sokszorosítására, terjesztésére vagy bemutatására, feltéve, hogy: az eredeti szerzőséget megfelelően és teljes körűen feltüntetik; a folyóiratot és az Oxford University Press-t feltüntetik eredeti megjelenési helyként, a helyes hivatkozási adatok megadásával; ha a cikket később nem teljes egészében, hanem csak részben vagy származékos műként sokszorosítják vagy terjesztik, ezt egyértelműen jelezni kell. Kereskedelmi célú további felhasználási engedélyekért kérjük, forduljon a [email protected] címre.

P.W.S. a Howard Hughes Medical Institute kutatója. Köszönjük Sheldon McKaynek és Kris Gunsalusnak a kézirat kritikai olvasását. A WormBase-t az amerikai Nemzeti Humán Genomkutató Intézet és a Brit Orvosi Kutatási Tanács P41-HG02223 számú pályázata támogatja.

Riddle,D.L., Blumenthal,T., Meyer,B.J. és Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: a multi-species resource for nematode biology and genomics.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: a cross-species database for comparative genomics.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. és Spieth,J. (

2001

) WormBase: hálózati hozzáférés a Caenorhabditis elegans genomjához és biológiájához .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Genome sequence of the nematode C.elegans : a platform for investigating biology.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. és Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) A Caenorhabditis elegans genomjának szisztematikus funkcionális elemzése RNSi segítségével.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. és Davidson,G.S. (

2001

) A gene expression map for Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) A metazoán C. elegans interaktom hálózatának térképe .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. és Marra,M.A. (

2001

) Changes in gene expression associated with developmental arrest and longevity in Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) The genome sequence of Caenorhabditis briggsae : a platform for comparative genomics.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) The COG database: an updated version includes eukaryotes.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genome annotation by high-throughput 5′ RNS end determination.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) The Bioperl toolkit: Perl modulok az élettudományok számára.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. és Stein,L. (

2001

) Az elosztott annotációs rendszer.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. és Thierry-Mieg,J. (

1998

) Szkriptelhető hozzáférés a Caenorhabditis elegans genomszekvenciához és más ACEDB adatbázisokhoz.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. és Gish,W. (

2003

) WU-Blast2 szerver az Európai Bioinformatikai Intézetben.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sequence mapping by electronic PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. és Sternberg,P. (

2004

) Testpresso: egy ontológia alapú információkereső és -kinyerő rendszer a C. elegans irodalom számára.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. és Hobert,O. (

2004

) CisOrtho: programcsővezeték a transzkripciós faktorok célgénjeinek genom-szerte történő azonosítására filogenetikai lábnyomelemzéssel.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: a sequence annotation editor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a modellorganizmusok rendszeradatbázisának építőköve.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) A FlyBase adatbázis a Drosophila genomprojektekről és a közösségi irodalomról.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) A Saccharomyces Genome Database (SGD) eszközöket biztosít a Saccharomyces cerevisiae és más szervezetekből származó rokon szekvenciák azonosításához és elemzéséhez.

Nucleic Acids Res.

,

32

(Database issue),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): a betegségek feltérképezése a genomra.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) Az egérgenom adatbázis (MGD): a biológia és a genom integrálása.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. és Birney,E. (

2004

) EnsMart: egy általános rendszer a biológiai adatok gyors és rugalmas eléréséhez.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. és Karp,P.D. (

2004

) MetaCyc: a metabolikus útvonalak és enzimek több szervezetre kiterjedő adatbázisa.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Author notes

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute and California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK és 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA

.