Articles

WormBase: o resursă cuprinzătoare de date pentru biologia și genomica Caenorhabditis

Abstract

WormBase ( http://www.wormbase.org ), baza de date a organismului model pentru informații despre Caenorhabditis elegans și nematodele înrudite, continuă să se extindă în amploare și profunzime. În ultimul an, WormBase a adăugat mai multe seturi de date la scară largă, inclusiv SAGE, interactomul, seturi de date privind structura proteică 3D și NCBI KOGs. Pentru a face față acestei creșteri, Consorțiul internațional WormBase a îmbunătățit interfața cu utilizatorul prin adăugarea de noi caracteristici care să faciliteze navigarea, vizualizarea seturilor de date la scară largă, căutarea avansată și extragerea de date. Pe plan intern, am restructurat modelele bazei de date pentru a raționaliza reprezentarea genelor și pentru a pregăti sistemul să accepte secvențele genomului a încă trei specii de Caenorhabditis în cursul anului viitor.

Recepționat la 21 august 2004; Revizuit și acceptat la 5 octombrie 2004

DESCRIERE

WormBase este baza de date a organismului model pentru biologia și genomica Caenorhabditis elegans și Caenorhabditis briggsae . Este o resursă în evoluție rapidă, care este determinată de faptul că C.elegans este utilizat pe scară largă ca organism model pentru o varietate de subiecte de cercetare biomedicală, inclusiv dezvoltarea, neuroștiința, apoptoza și îmbătrânirea ( 1 – 4 ), iar pentru acesta este disponibilă o gamă din ce în ce mai largă de date de mare randament. Secvența genomului C.elegans ( 5 ) a impulsionat proiectele de cercetare la nivel de genom, inclusiv ORFeome ( 6 ), interferența ARN (RNAi) ( 7 ), microarray ( 8 ), interactome (interacțiuni proteină-proteină la nivel de genom) ( 9 ), analiza în serie a expresiei genice (SAGE) ( 10 , 11 ) și alte tehnici de profilare a expresiei genice ( 11 ). Aceste seturi de date la scară largă au îmbogățit enorm conținutul WormBase ( 2 , 3 ). Mai recent, disponibilitatea întregii secvențe a genomului C.briggsae ( 12 ), în plus față de cea a lui C.elegans , a făcut din WormBase o platformă de genomică comparativă între genul Caenorhabditides ( 13 ).

Consorțiul internațional WormBase, format din peste 30 de oameni de știință de la patru instituții ( http://wormbase.org/about/people.html ), colectează și adnotează atât seturi de date la scară mare, cât și la scară mică de la C.elegans , C.briggsae și nematode înrudite, le organizează într-o singură bază de date publică și le pune la dispoziție pentru navigare și descărcare pe site-ul WormBase. În plus față de achiziționarea de date depuse direct prin legătura cu comunitatea de cercetare, consorțiul analizează și extrage date din întreaga literatură publicată despre Caenorhabditis. Noile versiuni ale bazei de date sunt puse la dispoziție la fiecare două săptămâni, asigurându-se astfel că seturile de date noi și actualizate sunt puse la dispoziția comunității în timp util. Acest articol trece în revistă progresele recente în ceea ce privește conținutul WormBase și îmbunătățirile aduse interfeței cu utilizatorul, explică modul în care evoluează WormBase și discută diferitele metode de accesare a datelor. Documentul se încheie cu o discuție despre noile caracteristici planificate pentru anul viitor.

ACTUALIZĂRI RECENTE LA CONȚINUTUL WormBase

În cursul anului trecut am mărit foarte mult dimensiunile unor seturi de date existente. De exemplu, există o creștere de 5 ori a punctelor de date microarray și o creștere spectaculoasă de 13 ori a experimentelor microarray, de la 8 experimente (raportate în 2 lucrări) la 113 experimente (raportate în 15 lucrări). Numărul de experimente RNAi care produc un fenotip care nu este de tip sălbatic a crescut, de asemenea, de peste două ori în ultimul an.

Continuăm să perfecționăm modelele de gene C.elegans pe baza noilor date care apar în literatura de specialitate, a noilor date de secvență din bazele de date publice de nucleotide (GenBank/EMBL/DDBJ) și a comunicărilor personale din partea comunității Worm. Cea mai mare parte a activității de conservare implică rafinarea structurii modelelor genetice existente. Cu toate acestea, continuăm, de asemenea, să eliminăm predicțiile genetice care nu mai sunt valabile (de exemplu, cadrele de lectură deschise foarte scurte) și adăugăm în mod continuu noi predicții genetice atunci când este cazul (de obicei, corespunzătoare unor noi izoforme ale unei gene existente). În ciuda numărului mare de gene create și eliminate, numărul total de gene (pentru genele care codifică proteine) a înregistrat doar o mică creștere netă (+22 gene) pe parcursul anului. În contrast cu aceasta, proporția de gene codificatoare de proteine care sunt acum confirmate de datele de transcriere (adică în cazul în care fiecare exon codificator are suport de transcriere) a crescut cu 20% (de la 4663 la 5569) în aceeași perioadă. Acest lucru se datorează disponibilității mai multor date de transcriere și activității curatorilor de a rafina modelele de gene pentru a se potrivi mai bine cu datele de transcriere disponibile. De asemenea, am îmbunătățit considerabil metodele prin care transcriptele sunt cartografiate pe genom și conectate la modelele de gene.

În aceeași perioadă, WormBase a adăugat câteva noi seturi de date experimentale și teoretice la scară largă. Printre adăugirile notabile se numără seturile de date SAGE la scară largă ( 10 , 11 ), setul de date interactome ( 9 ), datele structurale 3D și setul KOGs ( 14 ) de grupuri ortologice prezise de National Center for Biotechnology Information (NCBI). Recent, tehnica recent dezvoltată de determinare a extremităților ARN cuplate cu exonul trans-splicat (TEC-RED) a fost utilizată pentru a testa extremitățile 5′ ale genelor exprimate la C.elegans ( 15 ), iar setul de date este în curs de curatorie și de introducere în WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) este o tehnică sensibilă pentru testarea nivelurilor de expresie a genelor la nivelul întregului genom, care oferă o bună completare a tehnicilor bazate pe microarray. Începând cu versiunea WS123, WormBase încorporează rezultatele a 12 biblioteci SAGE, dintre care două au fost publicate anterior ( 10 ). Cele 12 biblioteci acoperă diferite stadii de dezvoltare ( 11 ), de la embrion la adult, și ating 20 417 gene (secvențe codificatoare, WS129) care corespund la 91,9 % din toate genele adnotate în genomul C.elegans în WormBase (22 213, inclusiv secvențe codificatoare cu splicing alternativ, WS129). Etichetele SAGE care corespund unei gene pot fi găsite în partea de jos a paginii genei din WormBase (de exemplu, http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) și sunt legate de informații care detaliază abundența etichetei SAGE în diferite stadii de viață într-o nouă pagină de raport SAGE ( Figura 1 ).

Figura 1.

Pagina de raport SAGE.

Figura 1.

Pagina de raport SAGE.

Interactome

Disecția rețelei de interacțiune a unei proteine este adesea o cheie pentru înțelegerea rolului său biologic. WormBase include rezultatele „Proiectului Interactome”, un screening pe scară largă bazat pe tehnica yeast two-hybrid (Y2H) ( 9 ). În setul de date actual, momelile sunt orientate către genele fie omoloage cu genele umane, cu funcții multicelulare (gene cu omologi în organisme multicelulare, inclusiv Drosophila melanogaster , Homo sapiens și Arabidopsis thaliana, dar nu și în Saccharomyces cerevisiae ), fie cu un rol cunoscut în mitoză și meioză. În prezent, WormBase include 5534 de interacțiuni care acoperă 15% din proteomul C.elegans. Utilizatorii pot vizualiza aceste interacțiuni din pagina de rezumat al genei.

Structuri tridimensionale ale proteinelor

Acest set de date mic, dar important, provine de la Northeast Structural Genomics Consortium ( http://www.nesg.org ), care își propune să producă 340 de obiective pentru C.elegans. Țintele primare ale consorțiului se concentrează pe proteinele organismelor model eucariote, inclusiv S.cerevisiae și D.melanogaster, în plus față de C.elegans . În prezent, structurile pentru șase proteine au fost depuse în Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Informații detaliate cu privire la statutul acestor 340 de ținte pentru C.elegans au fost incluse în WormBase și vor fi actualizate periodic.

NCBI KOGs

KOGs sunt o versiune specifică eucariotelor a Grupurilor Ortologice Conservate (Conserved Orthologous Groups) concepută inițial la NCBI pentru genomurile microbiene ( 14 ). KOG-urile sunt definite de un triunghi al celor mai bune rezultate reciproce BLASTP între domeniile proteinelor eucariote din specii foarte divergente ( 14 ). În ultimul an, WormBase a încorporat aceste adnotări KOG, împreună cu alte grupuri de homologie ( 14 ). În prezent, WormBase conține 4852 de KOG-uri, care includ produsul a 9427 de gene codificatoare de proteine din C.elegans (adică 48 % din toate genele codificatoare de proteine prezise în WS129).

MODIFICĂRI ALE MODELULUI DE DATE INTERNE ȘI NOI IDENTIFICATORI

Baza de date backend a WormBase este ACeDB ( http://www.acedb.org ) ( 4 ). Pe parcursul anului trecut, am schimbat modul în care o serie de tipuri de date sunt reprezentate în baza de date. Aceste modificări ale schemei bazei de date nu afectează utilizatorii obișnuiți. Cu toate acestea, utilizatorii avansați care scriu scripturi pentru a accesa WormBase trebuie să fie conștienți de ele. Modificările semnificative ale modelului includ introducerea unei clase unificate Gene ( http://wormbase.org/db/misc/model?class=Gene ), care conține toate informațiile relevante despre o genă. Anterior, astfel de informații erau împrăștiate în mai multe clase interrelaționate. În același timp, am introdus clasele CDS și Transcript pentru a gestiona mai bine relațiile dintre transcriptele îmbinate și produsele lor și am îmbunătățit semnificativ derivarea structurilor transcriptelor din secvențele ADNc și EST.

Alături de aceste modificări am introdus identificatori anonimi stabili pentru gene, de forma WBGene00006741, și pentru lucrări, de forma WBPaper0005637, în aceeași formă ca și identificatorii de persoană de forma WBPerson241. Acești identificatori urmăresc diferitele denumiri care au fost folosite pentru entitatea corespunzătoare și ar trebui să fie utilizați, dacă este posibil, pentru referințe încrucișate în bazele de date. Site-ul web acceptă URL-uri de forma http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Întrebările referitoare la modelele de date pot fi adresate la adresa [email protected] .

Îmbunătățiri ale interfeței utilizatorului

Îmbunătățiri ale browserului de genom WormBase

Browserul de genom este o componentă centrală a WormBase care permite utilizatorilor să vizualizeze structurile modelelor de gene și dovezile care le susțin, precum și alte caracteristici, cum ar fi polimorfismele de un singur nucleotid (SNP), elementele repetitive și reactivii experimentali. În ultimul an, browserul a fost îmbunătățit în mai multe moduri: (i) suport pentru grafică vectorială scalabilă ( SVG ) . Imaginile browserului genomului WormBase au fost utilizate pe scară largă în prezentările și ilustrațiile din publicații ( 2 , 3 , 17 ), dar natura lor bitmap duce la degradarea imaginii atunci când sunt tipărite la rezoluție mare. Am adăugat recent o facilitate care permite utilizatorilor WormBase să descarce imaginile specificate ale browserului genomului sub formă de fișiere SVG ( http://www.w3.org/TR/SVG/ ), care pot fi afișate, editate și tipărite la rezoluție înaltă cu ajutorul unui software compatibil SVG, cum ar fi Adobe Illustrator 10. (ii) Evidențierea caracteristicilor . Pentru a ajuta la localizarea și vizualizarea caracteristicilor de interes, WormBase evidențiază acum cu un fundal galben caracteristica pe care utilizatorii au găsit-o în cadrul unei căutări. Această modificare este deosebit de utilă atunci când utilizatorii navighează în ferestre de dimensiuni mari, cu mai multe piste activate. (iii) Regiuni netranslate ( UTR ). Atât modelul intern de date, cât și afișarea vizuală au fost modificate acum pentru a arăta secțiunile netraduse ale transcriptelor, precum și îmbinările interne care apar în cadrul 5′- sau 3′-UTR. (iv) Mai multe piste de caracteristici , inclusiv SNP-uri, etichete SAGE, operon, site-uri poli(A) și secvențe de semnal prezise. (v) Suport DAS . Browserul genomului poate fi utilizat acum ca vizualizator pentru pistele Distributed Annotation System (DAS) ( 18 ), permițând utilizatorilor să suprapună propriile lor adnotări pe pistele WormBase.

Pagina de aliniere EST și pagina de aliniere a proteinelor

WormBase menține acum alinieri la nivel de nucleotide ale EST-urilor, ADNc-urilor și ale altor secvențe atât în cadrul speciilor, cât și între specii. De exemplu, alinierea dintre genomurile C.elegans și C.briggsae poate fi vizualizată atât într-o vizualizare de joasă rezoluție care evidențiază relația dintre un grup de gene coliniare ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), cât și într-o vizualizare de aliniere text de înaltă rezoluție care arată diferențele la nivelul nucleotidelor individuale. EST-urile și ADNc de la C.elegans și alte nematode pot fi vizualizate într-o vizualizare de aliniere multiplă care evidențiază alinierile greșite și lacunele ( http://www.wormbase.org/db/seq/seq/aligner?name=WBGene00000423;class=Gene ).

La nivel proteic, WormBase menține o listă a celor mai bune potriviri BLAST cu cei mai lungi produse proteice de la alte specii importante, inclusiv omul ( H.sapiens ), șoarecele ( Mus musculus ), șobolanul ( Rattus norvegicus ), musca ( D.melanogaster ), drojdia ( S.cerevisiae ) și C.briggsae , care împreună pot oferi informații despre funcția genelor înrudite. Toate rezultatele BLAST sunt însoțite de un hyperlink către o intrare relevantă în baza de date a organismului model respectiv sau către Swiss-Prot/TrEMBL, după caz. Afișajul alinierii multiple evidențiază reziduurile de aminoacizi conservate utilizând un cod de culori bazat pe proprietățile chimice ale reziduurilor ( Figura 2 ).

Figura 2.

Pagina de aliniere a proteinelor.

Figura 2.

Pagina de aliniere a proteinelor.

Harta site-ului WormBase și glosarul WormBase

În ultimul an, am adăugat o hartă a site-ului WormBase ( http://wormbase.org/db/misc/site_map ) pentru a oferi o imagine de ansamblu a numărului tot mai mare de pagini web. Utilizatorii pot accesa această hartă direct din bannerul de navigare din partea de sus a fiecărei pagini WormBase. Pagina cu harta site-ului listează toate paginile WormBase și oferă utilizatorilor diferite vizualizări. De exemplu, utilizatorii pot alege „Vizualizare detaliată” pentru a obține o scurtă prezentare generală pentru fiecare pagină în parte, înainte de a parcurge paginile. Iar ‘Alphabetical View’ (Vizualizare alfabetică) listează paginile de căutare în ordine alfabetică. Recent, WormBase a creat o pagină de glosar ( http://dev.wormbase.org/db/misc/glossary ) care enumeră definițiile termenilor comuni utilizați pe tot parcursul site-ului.

WormBase AS A PLATFORM FOR DATA MINING

Pe măsură ce biologii ajung să utilizeze mai sofisticat seturi de date pe scară largă, există o nevoie tot mai mare de o resursă care să fie mai mult decât un depozit de tip „point-and-click”, dar care să ofere și instrumente de analiză și extragere a datelor. Această secțiune descrie pe scurt caracteristicile existente și recent introduse care fac ca WormBase să fie potrivit pentru mineritul de date.

Accesarea și recuperarea WormBase

Există cinci metode diferite de accesare a WormBase, fiecare fiind potrivită pentru un set diferit de scopuri. Utilizatorii pot alege cele mai potrivite metode de acces în funcție de experiența și nevoile lor.

  • Cercetarea site-ului . Aceasta este o abordare de tip „un element la un moment dat”. Utilizatorii WormBase intră de obicei în WormBase de pe prima pagină, căutând gena (sau alte elemente) de interes în caseta de căutare. Alternativ, utilizatorii pot deschide harta site-ului WormBase făcând clic pe un link din bannerul de navigare de sus și pot intra pe o anumită pagină web pentru căutare, fie prin secvență (BLAST sau BLAT), fie prin text. Odată ce utilizatorii găsesc elementul care îi interesează, ei pot naviga pe paginile web conexe urmând linkurile. Avantajul de a lucra cu WormBase în acest mod este că utilizatorii pot obține vizualizări și informații detaliate despre elementele de interes.

  • Recuperare pe loturi . Utilizatorii WormBase au din ce în ce mai mult nevoie să obțină rapoarte pe loturi personalizate. Pentru a răspunde acestei nevoi, WormBase oferă două pagini de căutare web: „Batch Genes” și „Batch Sequences” ( 2 ). Pagina „Batch Genes” permite utilizatorilor să recupereze toate câmpurile de date genetice interesante din punct de vedere biologic, de la ID-uri din baze de date externe, la motive proteice, termeni GO, poziții genomice, fenotipuri și secvențe ADN și proteice subiacente. Această pagină oferă utilizatorilor opțiunea de a descărca rezultatele în text simplu sau în format HTML și oferă o varietate de modalități de selectare a setului de gene de interes. Pagina Batch Sequences este ideală pentru recuperarea datelor bazate pe secvențe, cum ar fi UTR-uri, introni, elemente promotoare putative și așa mai departe. De exemplu, această facilitate poate fi utilizată pentru a genera fișiere de secvențe care constau într-o anumită lungime de secvență în amonte dintr-un set selectat de gene codificatoare de proteine. Ambele pagini pot fi accesate cu ușurință din bannerul de navigare de sus. Avantajul acestei metode de căutare constă în faptul că oferă rezultate pentru un număr mare de elemente (gene).

  • Cercetarea în limbaj de căutare . Pentru utilizatorii care se simt confortabil cu limbajele de interogare a bazei de date ACeDB și sunt familiarizați cu modelele bazei de date WormBase, căutările în limbaj de interogare reprezintă o metodă rapidă și versatilă de căutare în WormBase. Sunt disponibile două pagini de căutare a limbajelor de interogare: una pentru limbajul de interogare WormBase, limbajul de interogare ACeDB original, și alta pentru AQL, limbajul de interogare ACeDB de tip nou, care este mai asemănător cu SQL. Aceste pagini pot fi accesate de pe pagina „Harta site-ului” WormBase. Pentru utilizatorii care nu sunt familiarizați cu limbajele de interogare ACeDB, paginile de căutare oferă instrucțiuni și exemple de interogări. Avantajul major este că utilizatorii pot formula interogări ad-hoc sofisticate.

  • Bulk downloads . Utilizatorii pot descărca seturi întregi de gene sau chiar întreaga bază de date în sine. WormBase oferă o serie de extrase din baza de date pe site-ul său FTP, inclusiv coordonatele genelor și alte caracteristici, secvențe de proteine, date de îmbinare a genelor și informații de cartografiere genetică. Întregul genom și adnotările sale sunt disponibile într-un format tabelar care poate fi încărcat și interogat cu o varietate de baze de date relaționale, inclusiv MySQL, PostgreSQL și Oracle. Pentru fiecare versiune este furnizat un tabel care leagă produsele PCR, cum ar fi cele utilizate pentru microarrays și experimentele RNAi, de genele adnotate în prezent. WormBase oferă, de asemenea, întreaga bază de date în format ACeDB. Avantajul acestei metode este că utilizatorii nu trebuie să se bazeze pe internet pentru recuperarea datelor, astfel încât prelucrarea datelor nu este limitată de accesul la internet. Problemele asociate cu această metodă constau în faptul că utilizatorii trebuie să fie foarte familiarizați cu natura seturilor de date și cu modelele bazelor de date.

  • Scripting . Pentru utilizatorii mai avansați care cunosc programarea de scripturi, WormBase oferă un server cu acces liber „aceserver” (la http://aceserver.cshl.org ) pentru acces direct la baza de date WormBase backend ( 19 ). Pagina de instrucțiuni de extragere a datelor WormBase oferă cercetătorilor detalii despre cum să se conecteze la aceste baze de date utilizând interfața de programare a aplicațiilor Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), împreună cu un depozit de scripturi cu scripturi Perl reutilizabile. Utilizatorii pot rula aceste scripturi pe mașinile lor locale și le pot folosi ca șabloane pentru a-și personaliza propriile scripturi. Cel mai mare avantaj este că utilizatorii pot interoga, formata și prelucra rezultatele căutării în măsura în care doresc. Un dezavantaj evident este că utilizatorii trebuie să dobândească anumite abilități de programare. Cu toate acestea, acest lucru devine din ce în ce mai popular în rândul utilizatorilor avansați.

Instrumente specializate de extragere a datelor

În calitate de platformă de analiză a secvențelor, WormBase a pus la dispoziția utilizatorilor un număr mare de instrumente de analiză a secvențelor. Aceste instrumente includ BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner și protein aligner. În ultimul an, două noi instrumente de extragere a datelor, Textpresso ( http://www.textpresso.org ) ( 23 ), un instrument de căutare în literatura de specialitate, și CisOrtho ( 24 ), un instrument de căutare comparativă a elementelor cis -elementelor, au fost, de asemenea, adăugate la WormBase. Textpresso este un motor de căutare a textului integral, care le oferă cercetătorilor posibilitatea de a căuta în corpul întregului fond de literatură din WormBase, care include un procent substanțial din literatura C.elegans și C.briggsae. În prezent, baza de date Textpresso deține 19 985 de documente curatoriate, dintre care 4420 au texte complete. Aceste documente provin din patru surse majore: (i) Lucrări CGC . Acestea sunt articole din reviste științifice întreținute de Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) rezumatele Worm Meetings; (iii) rezumatele Worm Breeders Gazette; și (iv) Diverse . Acestea sunt diverse alte rezumate care conțin date despre C.elegans și C.briggsae . O altă caracteristică utilă a Textpresso este că returnează propozițiile care conțin cuvintele cheie, cu link-uri către paginile de documente WormBase și paginile PubMed.

CisOrtho ( 24 ) funcționează pornind de la un loc de legare consensual care este reprezentat ca o matrice de greutate. Acesta identifică situsurile potențiale într-un genom prefiltrat și apoi filtrează în continuare prin evaluarea conservării situsului putativ în genomul unei specii înrudite, un proces numit „phylogenetic footprinting”. CisOrtho poate fi accesat la http://www.wormbase.org/cisortho/ .

GELAREA BAZEI DE DATE

În trecut, politica de actualizare bilunară a WormBase a reprezentat o problemă pentru cercetătorii care publicau rezultate bazate pe extragerea WormBase, deoarece, până la momentul publicării rezultatelor lor, versiunea WormBase pe care își bazau analiza fusese depășită. Pentru a ajuta ca astfel de cercetări să fie citabile și reproductibile, am adoptat o nouă politică prin care fiecare a zecea versiune WormBase devine o versiune înghețată. Versiunile înghețate sunt disponibile în permanență pe site-uri WormBase special desemnate, denumite http://ws100.wormbase.org , http://ws110.wormbase.org și așa mai departe. Prima înghețată a fost http://ws100.wormbase.org , lansată pe 10 mai 2003. Cea mai recentă înghețare este http://ws130.wormbase.org , lansată la 16 august 2004. Cercetătorii sunt încurajați să efectueze analize la scară largă pe o versiune înghețată și să citeze numărul versiunii în publicațiile lor. Punctele către toate înghețurile sunt afișate pe prima pagină a site-ului live WormBase.

COLABORĂRI CU ALTE BAZE DE DATE ALE ORGANISMELOR MODEL

WormBase face parte din proiectul GMOD ( 25 , 26 ), o colaborare largă între bazele de date ale organismelor model pentru a dezvolta vocabulare comune, modele de date, instrumente software și interfețe de utilizator aplicabile în toate bazele de date ale comunității organismelor model. Ca parte a acestui proiect, WormBase oferă legături bazate pe similitudinea secvențelor între paginile sale de gene și paginile de gene ale FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) și Reactome ( http://www.reactome.org ). Sunt planificate legături către RGD ( 30 ) și MGD ( 31 ).

Recent, proiectul GMOD a dezvoltat o reprezentare comună a caracteristicilor secvenței genomice, cunoscută sub numele de Ontologia secvenței ( http://song.sourceforge.net ), care facilitează schimbul de adnotări genomice între diferitele MOD și încurajează utilizarea unor instrumente comune de analiză și vizualizare. Participanții la GMOD folosesc deja pachete software comune pe site-urile lor web pentru vizualizarea adnotărilor genomului, desenarea hărților genetice și căutarea în literatura de specialitate, iar această convergență va fi îmbunătățită în viitorul apropiat, pe măsură ce MOD-urile se îndreaptă către o pagină genetică unificată.

DIRECȚII DE URMĂRIT

WormBase a evoluat de la ACeDB ( http://www.acedb.org ), la o bază de date care înglobează curatoriatul literaturii și biologia C.elegans ( 4 ) și, recent, la o bază de date care găzduiește biologia și datele genomice ale mai multor specii de nematode ( 2 , 3 ). WormBase este încă o activitate în curs de desfășurare. În ceea ce privește interfața cu utilizatorul, printre viitoarele îmbunătățiri se numără WormMart, care se bazează pe BioMart, un sistem avansat de interogare și generare de rapoarte dezvoltat inițial pentru a fi utilizat cu Ensembl ( 32 ). În ceea ce privește datele, așteptăm cu nerăbdare secvențierea și adnotarea genomului a încă trei specii de nematode ( http://genome.gov/page.cfm?pageID=10002154 ), ceea ce ridică la cinci numărul de genomuri Caenorhabditis menținute de WormBase. În cursul anului 2005, WormBase intenționează să introducă un browser pentru metabolismul intermediar al nematodelor și pentru căile biologice de ordin superior. Browserul de căi și setul de date subiacente vor fi dezvoltate în colaborare cu proiectele Reactome și MetaCyc ( http://metacyc.org/ ) ( 33 ). Împreună, acestea vor oferi o resursă de neegalat pentru disecarea elementelor funcționale din genomurile Caenorhabditis și vor oferi informații valoroase despre evoluția și adaptările biologice ale acestor organisme.

Consorțiul WormBase va continua să abordeze problemele ridicate de utilizatorii WormBase, menținând atât o interfață de utilizator simplă și prietenoasă, adăugând în același timp și alte instrumente de căutare și cercetare pentru a permite evoluția WormBase de la un depozit de date la o resursă pe care să o utilizeze toți biologii pentru a maximiza valoarea cercetării organismelor model în C.elegans și rudele sale.

Ca întotdeauna, sunt binevenite comentariile, întrebările, corecturile și trimiterile de date ( [email protected] ).

Versiunea online a acestui articol a fost publicată sub un model de acces deschis. Utilizatorii au dreptul să utilizeze, să reproducă, să difuzeze sau să afișeze versiunea cu acces deschis a acestui articol în scopuri necomerciale, cu condiția ca: autorul original să fie atribuit în mod corespunzător și complet; Jurnalul și Oxford University Press să fie atribuite ca fiind locul original de publicare, cu indicarea corectă a detaliilor de citare; în cazul în care un articol este ulterior reprodus sau difuzat nu în întregime, ci doar parțial sau ca o lucrare derivată, acest lucru trebuie să fie indicat în mod clar. Pentru autorizații de reutilizare comercială, vă rugăm să contactați [email protected] .

P.W.S. este cercetător în cadrul Institutului Medical Howard Hughes. Le mulțumim lui Sheldon McKay și Kris Gunsalus pentru lectura critică a manuscrisului. WormBase este susținut de grantul P41-HG02223 de la Institutul Național de Cercetare a Genomului Uman din SUA și de Consiliul Britanic de Cercetare Medicală.

Riddle,D.L., Blumenthal,T., Meyer,B.J. și Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: a multi-species resource for nematode biology and genomics.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: a cross-species database for comparative genomics.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. și Spieth,J. (

2001

) WormBase: acces în rețea la genomul și biologia lui Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Secvența genomului nematodului C.elegans : o platformă pentru investigarea biologiei.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. și Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Analiza funcțională sistematică a genomului Caenorhabditis elegans folosind RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. și Davidson,G.S. (

2001

) O hartă a expresiei genice pentru Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) O hartă a rețelei interactomului din metazoarul C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. și Marra,M.A. (

2001

) Modificări în expresia genelor asociate cu oprirea dezvoltării și longevitatea la Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) Secvența genomului de Caenorhabditis briggsae : o platformă pentru genomică comparativă.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. și Sternberg,P.W. (

2003

) Proiectul secvenței genomului nematodului Caenorhabditis briggsae , un companion al lui C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) Baza de date COG: o versiune actualizată include eucariote.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. și Sternberg,P.W. (

2004

) Adnotarea genomului prin determinarea extremității 5′ a ARN de mare capacitate.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) The Bioperl toolkit: Module Perl pentru științele vieții.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. și Stein,L. (

2001

) The distributed annotation system.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. și Thierry-Mieg,J. (

1998

) Acces scriptabil la secvența genomului Caenorhabditis elegans și la alte baze de date ACEDB.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. și Gish,W. (

2003

) Serverul WU-Blast2 de la Institutul European de Bioinformatică.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Cartografierea secvențelor prin PCR electronică.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. și Sternberg,P. (

2004

) Testpresso: un sistem de regăsire și extragere a informațiilor bazat pe ontologie pentru literatura despre C. elegans.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. și Hobert,O. (

2004

) CisOrtho: o conductă de programe pentru identificarea la nivel de genom a genelor țintă ale factorilor de transcripție folosind amprenta filogenetică.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: un editor de adnotare a secvențelor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a building block for a model organism system database.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) Baza de date FlyBase a proiectelor privind genomul Drosophilei și a literaturii comunității.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) oferă instrumente pentru identificarea și analiza secvențelor din Saccharomyces cerevisiae și a secvențelor înrudite din alte organisme.

Nucleic Acids Res.

,

32

(număr din baza de date),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Baza de date a genomului de șobolan (RGD): cartografierea bolii pe genom.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) Baza de date a genomului de șoarece (MGD): integrarea biologiei cu genomul.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. și Birney,E. (

2004

) EnsMart: un sistem generic pentru acces rapid și flexibil la date biologice.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. și Karp,P.D. (

2004

) MetaCyc: a multiorganism database of metabolic pathways and enzymes.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Note ale autorilor

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, SUA, 1Howard Hughes Medical Institute și California Institute of Technology, Pasadena, CA, SUA, 2Genome Sequencing Center, Washington University, St Louis, MO, SUA, 3The Wellcome Trust Sanger Institute, Hinxton, UK și 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, SUA

.