Articles

WormBase: a comprehensive data resource for Caenorhabditis biology and genomics

Abstract

WormBase ( http://www.wormbase.org ), baza danych organizmów modelowych dla informacji o Caenorhabditis elegans i pokrewnych nicieniach, nadal się rozszerza pod względem szerokości i głębokości. W ciągu ostatniego roku, WormBase dodała wiele dużych zbiorów danych, w tym SAGE, interaktom, zbiory danych o strukturze białek 3D i NCBI KOGs. Aby sprostać temu wzrostowi, Międzynarodowe Konsorcjum WormBase ulepszyło interfejs użytkownika poprzez dodanie nowych funkcji ułatwiających nawigację, wizualizację dużych zbiorów danych, zaawansowane wyszukiwanie i eksplorację danych. Wewnętrznie, zrestrukturyzowaliśmy modele bazy danych, aby zracjonalizować reprezentację genów i przygotować system do przyjęcia sekwencji genomowych trzech dodatkowych gatunków Caenorhabditis w nadchodzącym roku.

Received August 21, 2004; Revised and Accepted October 5, 2004

DESCRIPTION

WormBase jest bazą danych organizmów modelowych dla biologii i genomiki Caenorhabditis elegans i Caenorhabditis briggsae . Jest to szybko rozwijający się zasób, który jest napędzany przez fakt, że C.elegans jest szeroko stosowany jako organizm modelowy dla różnych tematów badań biomedycznych, w tym rozwoju, neurobiologii, apoptozy i starzenia się ( 1 – 4 ), a coraz szerszy zakres danych o wysokiej wydajności jest dostępny dla niego. Sekwencja genomu C.elegans ( 5 ) pobudziła projekty badawcze dotyczące całego genomu, w tym ORFeome ( 6 ), interferencję RNA (RNAi) ( 7 ), mikromacierze ( 8 ), interactome (genomowe interakcje białko-białko) ( 9 ), seryjną analizę ekspresji genów (SAGE) ( 10 , 11 ) i inne techniki profilowania ekspresji genów ( 11 ). Te wielkoskalowe zbiory danych w ogromnym stopniu wzbogaciły zawartość WormBase ( 2 , 3 ). Ostatnio, dostępność całej sekwencji genomu C.briggsae ( 12 ), oprócz sekwencji C.elegans , ustanowiła WormBase jako platformę dla genomiki porównawczej wśród rodzaju Caenorhabditides ( 13 ).

Międzynarodowe Konsorcjum WormBase, składające się z ponad 30 naukowców z czterech instytucji ( http://wormbase.org/about/people.html ), zbiera i anotuje zarówno duże, jak i małe zbiory danych z C.elegans , C.briggsae i pokrewnych nicieni, organizuje je w jednej publicznej bazie danych i udostępnia do przeglądania i pobierania na stronie internetowej WormBase. Oprócz pozyskiwania bezpośrednio zdeponowanych danych poprzez kontakty ze środowiskiem naukowym, konsorcjum przegląda i wydobywa dane z kompletnej literatury dotyczącej Caenorhabditis. Nowe wersje bazy danych są udostępniane co dwa tygodnie, co zapewnia, że nowe i zaktualizowane zestawy danych są dostępne dla społeczności na czas. Niniejszy artykuł omawia ostatnie postępy w zawartości WormBase i ulepszenia w interfejsie użytkownika, wyjaśnia jak WormBase ewoluuje i omawia różne metody dostępu do danych. Artykuł kończy się dyskusją na temat nowych funkcji planowanych na nadchodzący rok.

Ostatnie uzupełnienia do WormBase CONTENTS

W ciągu ostatniego roku znacznie zwiększyliśmy rozmiary niektórych istniejących zbiorów danych. Na przykład, nastąpił 5-krotny wzrost liczby punktów danych mikromacierzy i dramatyczny, 13-krotny wzrost liczby eksperymentów mikromacierzowych, z 8 eksperymentów (opisanych w 2 pracach) do 113 eksperymentów (opisanych w 15 pracach). Liczba eksperymentów RNAi powodujących fenotyp inny niż typ dziki również wzrosła ponad dwukrotnie w ciągu ostatniego roku.

Kontynuujemy udoskonalanie modeli genów C.elegans na podstawie nowych danych pojawiających się w literaturze, nowych sekwencji w publicznych bazach danych nukleotydów (GenBank/EMBL/DDBJ) oraz osobistej korespondencji od społeczności Worm. Większość działań kuratorskich polega na udoskonalaniu struktury istniejących modeli genów. Jednak usuwamy również te przewidywania genów, które nie są już aktualne (np. bardzo krótkie otwarte ramki odczytu) i stale dodajemy nowe przewidywania genów, jeśli jest to konieczne (zwykle odpowiadające nowym izoformom istniejącego genu). Pomimo dużej liczby tworzonych i usuwanych genów, całkowita liczba genów (dla genów kodujących białka) odnotowała jedynie niewielki wzrost netto (+22 geny) w ciągu roku. W przeciwieństwie do tego, proporcja genów kodujących białka, które są obecnie potwierdzone przez dane transkryptu (tj. gdzie każdy kodujący egzon ma wsparcie transkryptu) wzrosła o 20% (z 4663 do 5569) w tym samym okresie. Jest to spowodowane dostępnością większej ilości danych transkryptów oraz pracą kuratorów nad udoskonaleniem modeli genów, aby lepiej pasowały do dostępnych danych transkryptów. Znacznie poprawiliśmy również metody, za pomocą których transkrypty są mapowane na genomie i łączone z modelami genów.

W tym samym okresie WormBase dodała kilka nowych dużych eksperymentalnych i teoretycznych zbiorów danych. Godne uwagi dodatki obejmują wielkoskalowe zestawy danych SAGE ( 10 , 11 ), zestaw danych interactome ( 9 ), dane strukturalne 3D i zestaw National Center for Biotechnology Information (NCBI) KOGs ( 14 ) przewidywanych grup ortologicznych. Ostatnio, nowo opracowana technika trans -spliced exon coupled RNA end determination (TEC-RED) została wykorzystana do oznaczania 5′ końców genów ekspresji u C.elegans ( 15 ), a zbiór danych jest kuratorowany i wprowadzany do WormBase.

Genome-wide SAGE

SAGE ( 10 , 11 ) jest czułą techniką do oceny poziomów ekspresji genów w całym genomie, która stanowi dobre uzupełnienie technik opartych na mikromacierzach. Od wersji WS123, WormBase zawiera wyniki z 12 bibliotek SAGE, z których dwie zostały opublikowane wcześniej ( 10 ). Te 12 bibliotek obejmuje różne stadia rozwojowe ( 11 ) od zarodka do osobnika dorosłego i dotyka 20 417 genów (sekwencje kodujące, WS129) odpowiadających 91,9% wszystkich genów opisanych w genomie C.elegans w WormBase (22 213 w tym alternatywnie splicedowane sekwencje kodujące, WS129). Znaczniki SAGE odpowiadające danemu genowi można znaleźć na dole strony genu w WormBase (np. http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) i są one połączone z informacjami wyszczególniającymi liczebność znacznika SAGE na różnych etapach życia w nowym raporcie SAGE ( Rysunek 1 ).

Rysunek 1.

Strona raportu SAGE.

Rysunek 1.

Strona raportu SAGE.

Interactome

Rozbiór sieci interakcji białka jest często kluczem do zrozumienia jego roli biologicznej. WormBase zawiera wyniki 'Interactome Project’, zakrojonego na szeroką skalę badania opartego na technice hybrydowej Y2H (yeast two-hybrid) ( 9 ). W obecnym zestawie danych przynęty są ukierunkowane na geny homologiczne do genów ludzkich, o funkcjach wielokomórkowych (geny posiadające homologi w organizmach wielokomórkowych, w tym Drosophila melanogaster , Homo sapiens i Arabidopsis thaliana, ale nie w Saccharomyces cerevisiae ), lub mające znaną rolę w mitozie i mejozie. Obecnie WormBase zawiera 5534 interakcje obejmujące 15% proteomu C.elegans. Użytkownicy mogą zobaczyć te interakcje na stronie podsumowania genów.

Trójwymiarowe struktury białek

Ten mały, ale ważny zbiór danych pochodzi z Northeast Structural Genomics Consortium ( http://www.nesg.org ), którego celem jest wyprodukowanie 340 celów C.elegans. Główne cele Konsorcjum koncentrują się na białkach eukariotycznych organizmów modelowych, w tym S.cerevisiae i D.melanogaster, oprócz C.elegans . Obecnie struktury dla sześciu białek zostały zdeponowane w Protein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) ( 16 ). Szczegółowe informacje o statusie dla tych 340 celów C.elegans zostały włączone do WormBase i będą regularnie aktualizowane.

NCBI KOGs

KOGs są specyficzną dla eukariotów wersją Conserved Orthologous Groups pierwotnie opracowaną w NCBI dla genomów mikrobów ( 14 ). KOGs są zdefiniowane przez trójkąt wzajemnych najlepszych trafień BLASTP pomiędzy domenami białek eukariotycznych z wysoce rozbieżnych gatunków ( 14 ). W ciągu ostatniego roku, WormBase włączyła te adnotacje KOG, wraz z innymi grupami homologicznymi ( 14 ). Obecnie WormBase zawiera 4852 KOG, co obejmuje produkt 9427 genów kodujących białka C.elegans (tj. 48% wszystkich przewidywanych genów kodujących białka w WS129).

ZMIANY MODELU DANYCH WEWNĘTRZNYCH I NOWE IDENTYFIKATORY

Bazą danych backendu bazy WormBase jest ACeDB ( http://www.acedb.org ) ( 4 ). W ciągu ostatniego roku zmieniliśmy sposób, w jaki kilka typów danych jest reprezentowanych w bazie danych. Te zmiany w schemacie bazy danych nie mają wpływu na zwykłych użytkowników. Jednak zaawansowani użytkownicy, którzy piszą skrypty, aby uzyskać dostęp do WormBase, muszą być o nich poinformowani. Istotne zmiany w modelu obejmują wprowadzenie zunifikowanej klasy Gene ( http://wormbase.org/db/misc/model?class=Gene ), która przechowuje wszystkie istotne informacje o genie. Poprzednio takie informacje były rozproszone w kilku powiązanych ze sobą klasach. Jednocześnie wprowadziliśmy klasy CDS i Transcript, aby lepiej zarządzać relacjami między spliced transcripts i ich produktami, a także znacznie poprawiliśmy wyprowadzanie struktur transkryptów z sekwencji cDNA i EST.

Wraz z tymi zmianami wprowadziliśmy stabilne anonimowe identyfikatory dla genów, w postaci WBGene00006741, oraz dla prac, w postaci WBPaper0005637, w takiej samej postaci jak identyfikatory osób w postaci WBPerson241. Identyfikatory te śledzą różne nazwy, które były używane dla odpowiadającego im podmiotu i powinny być używane, jeśli to możliwe, do porównywania baz danych. Strona obsługuje adresy URL w postaci http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Pytania dotyczące modeli danych można kierować na adres [email protected] .

UDOSKONALENIA INTERFEJSU UŻYTKOWNIKA

Usprawnienia przeglądarki genomu WormBase

Przeglądarka genomu jest centralnym komponentem WormBase, który pozwala użytkownikom na wizualizację struktur modeli genów i ich dowodów, jak również innych cech, takich jak polimorfizmy pojedynczych nukleotydów (SNP), elementy powtarzalne i odczynniki eksperymentalne. W ciągu ostatniego roku przeglądarka została wzbogacona na kilka sposobów: (i) obsługa skalowalnej grafiki wektorowej ( SVG ) . Obrazy przeglądarki genomu WormBase były szeroko wykorzystywane w prezentacjach i ilustracjach do publikacji ( 2 , 3 , 17 ), ale ich bitmapowa natura prowadzi do degradacji obrazu przy drukowaniu w wysokiej rozdzielczości. Ostatnio dodaliśmy funkcję, która pozwala użytkownikom WormBase pobierać określone obrazy przeglądarki genomu jako pliki SVG ( http://www.w3.org/TR/SVG/ ), które mogą być wyświetlane, edytowane i drukowane w wysokiej rozdzielczości przy użyciu oprogramowania kompatybilnego z SVG, takiego jak Adobe Illustrator 10. (ii) Wyróżnianie cech . Aby ułatwić lokalizację i wizualizację interesujących cech, WormBase podświetla teraz na żółtym tle cechy, które użytkownik znalazł podczas wyszukiwania. Zmiana ta jest szczególnie przydatna, gdy użytkownicy przeglądają strony w dużych oknach z włączoną funkcją wielu ścieżek. (iii) Regiony nieulegające translacji ( UTR ). Zarówno wewnętrzny model danych, jak i wyświetlacz wizualny zostały teraz zmodyfikowane, aby pokazywać nieprzetłumaczone sekcje transkryptów, jak również wewnętrzne splajny, które występują w obrębie 5′- lub 3′-UTR. (iv) Więcej ścieżek cech, w tym SNP, znaczniki SAGE, operon, miejsca poli(A) i przewidywane sekwencje sygnałowe. (v) Obsługa DAS . Przeglądarka genomu może być teraz używana jako przeglądarka ścieżek Distributed Annotation System (DAS) ( 18 ), umożliwiając użytkownikom nakładanie własnych adnotacji na ścieżki WormBase.

Strona wyrównywania EST i strona wyrównywania białek

WormBase utrzymuje teraz wyrównania na poziomie nukleotydów EST, cDNA i innych sekwencji zarówno wewnątrz jak i pomiędzy gatunkami. Na przykład, wyrównanie między genomami C.elegans i C.briggsae może być oglądane zarówno w widoku o niskiej rozdzielczości, który podkreśla związek między grupą kolinearnych genów ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), lub w widoku wyrównania tekstowego o wysokiej rozdzielczości, który pokazuje różnice w poszczególnych nukleotydach. ESTs i cDNAs z C.elegans i innych nicieni mogą być oglądane w widoku wielokrotnego wyrównania, który podkreśla błędne wyrównania i luki ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

Na poziomie białek, WormBase utrzymuje listę najlepszych dopasowań BLAST do najdłuższych produktów białkowych z innych ważnych gatunków, w tym człowieka ( H.sapiens ), myszy ( Mus musculus ), szczura ( Rattus norvegicus ), muchy ( D.melanogaster ), drożdży ( S.cerevisiae ) i C.briggsae , które razem mogą zapewnić wgląd w funkcję powiązanych genów. Wszystkie wyniki BLAST są hiperłączami do odpowiednich wpisów w bazie danych organizmów modelowych lub do Swiss-Prot/TrEMBL, odpowiednio. Wyświetlanie wielokrotnego dopasowania podkreśla konserwowane reszty aminokwasowe za pomocą kodu kolorystycznego opartego na właściwościach chemicznych reszt ( Rysunek 2 ).

Rysunek 2.

Strona wyrównania białek.

Rysunek 2.

Strona wyrównania białek.

Mapa witryny WormBase i słownik WormBase

W ciągu ostatniego roku dodaliśmy mapę witryny WormBase ( http://wormbase.org/db/misc/site_map ), aby zapewnić przegląd rosnącej liczby stron internetowych. Użytkownicy mogą przejść do tej mapy bezpośrednio z banera nawigacyjnego na górze każdej strony WormBase. Strona z mapą witryny zawiera listę wszystkich stron WormBase i oferuje użytkownikom różne widoki. Na przykład, użytkownik może wybrać 'Widok szczegółowy’, aby uzyskać krótki przegląd poszczególnych stron przed ich przeglądaniem. Natomiast „Widok alfabetyczny” zawiera listę wyszukanych stron w porządku alfabetycznym. Ostatnio WormBase utworzył słownik pojęć ( http://dev.wormbase.org/db/misc/glossary ), który zawiera definicje popularnych terminów używanych na stronie.

WormBase JAKO PLATFORMA DO MININGU DANYCH

Ponieważ biolodzy coraz częściej korzystają z dużych zbiorów danych, rośnie zapotrzebowanie na zasoby, które są czymś więcej niż tylko repozytorium typu „wskaż i kliknij”, ale zapewniają również narzędzia do analizy i eksploracji danych. W tym rozdziale krótko opisujemy istniejące i niedawno wprowadzone funkcje, które sprawiają, że WormBase nadaje się do eksploracji danych.

Dostęp do WormBase i wyszukiwanie

Istnieje pięć różnych metod dostępu do WormBase, z których każda nadaje się do innych celów. Użytkownicy mogą wybrać najbardziej odpowiednie metody dostępu w zależności od ich doświadczenia i potrzeb.

  • Przeglądanie stron internetowych . Jest to podejście typu „jeden element na raz”. Użytkownicy WormBase zazwyczaj wchodzą do WormBase ze strony głównej, wyszukując interesujący ich gen (lub inne pozycje) w polu wyszukiwania. Można też otworzyć mapę strony WormBase, klikając na link w górnym banerze nawigacyjnym i wejść na konkretną stronę internetową w celu przeszukania, albo według sekwencji (BLAST lub BLAT), albo według tekstu. Po znalezieniu interesującej nas pozycji, użytkownicy mogą przeglądać powiązane z nią strony internetowe, podążając za linkami. Zaletą pracy z WormBase w ten sposób jest to, że użytkownicy mogą uzyskać szczegółowe widoki i informacje o interesujących ich obiektach.

  • Wyszukiwanie wsadowe . Użytkownicy bazy WormBase coraz częściej muszą uzyskiwać raporty wsadowe dostosowane do swoich potrzeb. Aby sprostać tej potrzebie, WormBase udostępnia dwie strony internetowe do wyszukiwania: 'Batch Genes’ i 'Batch Sequences’ ( 2 ). Strona Batch Genes pozwala użytkownikom na wyszukiwanie wszystkich biologicznie interesujących pól danych o genach, począwszy od identyfikatorów zewnętrznych baz danych, poprzez motywy białkowe, terminy GO, pozycje genomowe, fenotypy, aż po podstawowe sekwencje DNA i białek. Strona ta daje użytkownikom możliwość pobrania wyników w formacie zwykłego tekstu lub HTML i zapewnia wiele sposobów na wybranie interesującego ich zestawu genów. Strona Batch Sequences jest idealna do pobierania danych opartych na sekwencji, takich jak UTR, introny, elementy promotora itd. Na przykład, narzędzie to może być użyte do generowania plików sekwencji składających się z określonej długości sekwencji upstream z wybranego zestawu genów kodujących białka. Obie strony mogą być łatwo dostępne z górnego banera nawigacyjnego. Zaletą tej metody wyszukiwania jest to, że zwraca ona wyniki dla dużej liczby pozycji (genów).

  • Wyszukiwanie w języku zapytań . Dla użytkowników, którzy dobrze posługują się językami zapytań bazy danych ACeDB i znają modele bazy danych WormBase, wyszukiwanie za pomocą języka zapytań stanowi szybką i wszechstronną metodę przeszukiwania WormBase. Dostępne są dwie strony wyszukiwania w językach zapytań: jedna dla języka zapytań WormBase, oryginalnego języka zapytań ACeDB, a druga dla AQL, nowego języka zapytań ACeDB, który jest bardziej podobny do SQL. Dostęp do tych stron można uzyskać ze strony 'Mapa witryny’ WormBase. Dla użytkowników, którzy nie są zaznajomieni z językami zapytań ACeDB, strony wyszukiwania zawierają instrukcje i przykładowe zapytania. Główną korzyścią jest to, że użytkownicy mogą formułować zaawansowane zapytania ad hoc.

  • Pobieranie zbiorów . Użytkownicy mogą pobierać całe zestawy genów lub nawet całą bazę danych. WormBase udostępnia na swojej stronie FTP szereg wyciągów z bazy danych, w tym współrzędne genów i innych cech, sekwencje białek, dane o splicingu genów i informacje o mapowaniu genetycznym. Cały genom i jego adnotacje są dostępne w formacie tabelarycznym, który może być załadowany do różnych relacyjnych baz danych, w tym MySQL, PostgreSQL i Oracle. Dla każdej wersji dostępna jest tabela, która łączy produkty PCR, takie jak używane do mikromacierzy i eksperymentów RNAi, z aktualnie opisanymi genami. WormBase udostępnia również całą bazę danych w formacie ACeDB. Zaletą tej metody jest to, że użytkownicy nie muszą polegać na Internecie przy wyszukiwaniu danych, dzięki czemu ich przetwarzanie danych nie jest ograniczone dostępem do Internetu. Problemy związane z tą metodą polegają na tym, że użytkownicy muszą być bardzo dobrze zaznajomieni z naturą zbiorów danych i modelami baz danych.

  • Skryptowanie . Dla bardziej zaawansowanych użytkowników, którzy znają się na programowaniu skryptów, WormBase udostępnia otwarty serwer 'aceserver’ (pod adresem http://aceserver.cshl.org ) umożliwiający bezpośredni dostęp do bazy danych WormBase ( 19 ). Strona z instrukcjami dotyczącymi eksploracji danych WormBase dostarcza naukowcom szczegółowych informacji na temat sposobu łączenia się z tymi bazami danych przy użyciu interfejsu programowania aplikacji Perl ( http://www.perl.org ), AcePerl ( http://stein.cshl.org/AcePerl ), wraz z repozytorium skryptów Perla wielokrotnego użytku. Użytkownicy mogą uruchamiać te skrypty na swoich lokalnych maszynach i używać ich jako szablonów do dostosowywania własnych skryptów. Największą zaletą tego rozwiązania jest to, że użytkownicy mogą zadawać pytania, formatować i przetwarzać wyniki wyszukiwania w dowolnie wybranym zakresie. Oczywistą wadą jest to, że użytkownicy muszą nabyć pewne umiejętności programistyczne. Jednak staje się to coraz bardziej popularne wśród zaawansowanych użytkowników.

Specjalistyczne narzędzia eksploracji danych

Jako platforma analizy sekwencji, WormBase udostępnia użytkownikom dużą liczbę narzędzi do analizy sekwencji. Narzędzia te obejmują BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), mapper współrzędnych, EST aligner i aligner białek. W ostatnim roku do WormBase dodano również dwa nowe narzędzia do eksploracji danych, Textpresso ( http://www.textpresso.org ) ( 23 ), narzędzie do przeszukiwania literatury, oraz CisOrtho ( 24 ), narzędzie do wyszukiwania porównawczego cis-elementów. Textpresso jest wyszukiwarką pełnotekstową, która daje naukowcom możliwość przeszukiwania całej literatury zgromadzonej w bazie WormBase, co obejmuje znaczny procent literatury dotyczącej C.elegans i C.briggsae. Obecnie w bazie Textpresso znajduje się 19 985 dokumentów, z czego 4420 to pełne teksty. Dokumenty te pochodzą z czterech głównych źródeł: (i) Dokumenty CGC . Są to artykuły z czasopism naukowych prowadzonych przez Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ); (ii) abstrakty z Worm Meetings ; (iii) abstrakty z Worm Breeders Gazette ; oraz (iv) Różne . Są to różne inne abstrakty zawierające dane dotyczące C.elegans i C.briggsae . Inną użyteczną cechą programu Textpresso jest to, że zwraca on zdania zawierające słowa kluczowe wraz z odnośnikami do stron WormBase paper i PubMed.

CisOrtho ( 24 ) działa poprzez rozpoczęcie od konsensusu miejsca wiązania, które jest reprezentowane jako macierz wag. Identyfikuje potencjalne miejsca we wstępnie przefiltrowanym genomie, a następnie dalej filtruje poprzez ocenę zachowania domniemanego miejsca w genomie spokrewnionego gatunku, proces zwany filogenetycznym odciskiem stopy. Dostęp do CisOrtho można uzyskać pod adresem http://www.wormbase.org/cisortho/ .

DATABASE FREEZES

W przeszłości polityka aktualizacji bazy WormBase co dwa tygodnie stanowiła problem dla badaczy, którzy publikowali wyniki oparte na eksploracji bazy WormBase, ponieważ do czasu opublikowania ich wyników wersja bazy WormBase, na której opierali swoje analizy, była już przestarzała. Aby ułatwić cytowalność i odtwarzalność takich badań, przyjęliśmy nową zasadę, zgodnie z którą co dziesiąte wydanie WormBase staje się wydaniem zamrożonym. Zamrożone wydania są dostępne bezterminowo na specjalnie wyznaczonych stronach WormBase o nazwach http://ws100.wormbase.org , http://ws110.wormbase.org i tak dalej. Pierwszym zamrożonym wydaniem był http://ws100.wormbase.org , wydany 10 maja 2003 roku. Najnowszy zamrożony plik to http://ws130.wormbase.org , opublikowany 16 sierpnia 2004 roku. Zachęcamy naukowców do przeprowadzania analiz na dużą skalę na zamrożonych wydaniach i do podawania numeru wydania w swoich publikacjach. Odnośniki do wszystkich zamrożonych wersji są wyświetlane na stronie głównej witryny WormBase live.

WSPÓŁPRACA Z INNYMI BAZAMI DANYCH ORGANIZMÓW MODELOWYCH

WormBase jest częścią projektu GMOD ( 25 , 26 ), szerokiej współpracy między bazami danych organizmów modelowych w celu opracowania wspólnych słowników, modeli danych, narzędzi programowych i interfejsów użytkownika mających zastosowanie we wszystkich bazach danych organizmów modelowych. W ramach tego projektu, WormBase zapewnia oparte na podobieństwie sekwencji linki pomiędzy swoimi stronami genów a stronami genów w FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) i Reactome ( http://www.reactome.org ). Planowane są linki do RGD ( 30 ) i MGD ( 31 ).

Ostatnio w ramach projektu GMOD opracowano wspólną reprezentację cech sekwencji genomowych, znaną jako ontologia sekwencji ( http://song.sourceforge.net ), która ułatwia wymianę adnotacji genomowych między różnymi MOD i zachęca do korzystania ze wspólnych narzędzi analitycznych i wizualizacyjnych. Uczestnicy GMOD już teraz używają na swoich stronach internetowych wspólnych pakietów oprogramowania do wizualizacji adnotacji genomowych, rysowania map genetycznych i przeszukiwania literatury, a ta zbieżność zostanie wzmocniona w najbliższej przyszłości, gdy MOD-y będą zmierzać w kierunku ujednoliconej strony genowej.

Przyszłe KIERUNKI

WormBase ewoluowała z ACeDB ( http://www.acedb.org ), do bazy danych, która obejmuje kuratelę nad literaturą i biologią C.elegans ( 4 ), a ostatnio do bazy danych zawierającej dane biologiczne i genomowe wielu gatunków nicieni ( 2 , 3 ). Prace nad WormBase wciąż trwają. Jeśli chodzi o interfejs użytkownika, przyszłe ulepszenia obejmują WormMart, który jest oparty na BioMart, zaawansowanym systemie generowania zapytań i raportów, po raz pierwszy opracowanym do użytku z Ensembl ( 32 ). Jeśli chodzi o dane, czekamy na sekwencjonowanie genomu i anotację trzech kolejnych gatunków nicieni ( http://genome.gov/page.cfm?pageID=10002154 ), dzięki czemu liczba genomów Caenorhabditis utrzymywanych przez WormBase wzrośnie do pięciu. W roku 2005 WormBase planuje wprowadzić przeglądarkę pośredniego metabolizmu nicieni i ścieżek biologicznych wyższego rzędu. Przeglądarka ścieżek oraz bazowy zbiór danych zostaną opracowane we współpracy z projektami Reactome i MetaCyc ( http://metacyc.org/ ) ( 33 ). Razem zapewnią one niezrównany zasób do analizy elementów funkcjonalnych w genomach Caenorhabditis i dostarczą cennego wglądu w ewolucję i biologiczne adaptacje tych organizmów.

Konsorcjum WormBase będzie nadal zajmować się kwestiami podnoszonymi przez użytkowników WormBase, utrzymując zarówno prosty i przyjazny interfejs użytkownika, jak i dodając dalsze narzędzia do wyszukiwania i badań, aby umożliwić ewolucję WormBase z repozytorium danych do zasobu, z którego mogą korzystać wszyscy biolodzy w celu zmaksymalizowania wartości badań nad organizmami modelowymi C.elegans i jego krewnymi.

Jak zawsze, mile widziane są komentarze, pytania, poprawki i przesyłanie danych ( [email protected] ).

Wersja online tego artykułu została opublikowana w modelu open access. Użytkownicy mają prawo do używania, reprodukcji, rozpowszechniania lub wyświetlania wersji open access tego artykułu w celach niekomercyjnych pod warunkiem, że: oryginalne autorstwo jest właściwie i w pełni przypisane; Journal i Oxford University Press są przypisane jako oryginalne miejsce publikacji z poprawnymi danymi cytowania; jeśli artykuł jest następnie reprodukowany lub rozpowszechniany nie w całości, ale tylko w części lub jako praca pochodna, musi to być wyraźnie zaznaczone. W celu uzyskania zgody na komercyjne ponowne wykorzystanie, prosimy o kontakt [email protected] .

P.W.S. jest badaczem w Howard Hughes Medical Institute. Dziękujemy Sheldonowi McKay i Krisowi Gunsalusowi za krytyczną lekturę manuskryptu. WormBase jest wspierany przez grant P41-HG02223 z US National Human Genome Research Institute i British Medical Research Council.

Riddle,D.L., Blumenthal,T., Meyer,B.J. i Priess,J.R. (

1997

) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (

2004

) WormBase: a multi-species resource for nematode biology and genomics.

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: a cross-species database for comparative genomics.

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. and Spieth,J. (

2001

) WormBase: sieciowy dostęp do genomu i biologii Caenorhabditis elegans .

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) Genome sequence of the nematode C.elegans : a platform for investigating biology.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) Systematic functional analysis of the Caenorhabditis elegans genome using RNAi.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. and Davidson,G.S. (

2001

) A gene expression map for Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (

2004

) A map of the interactome network of the metazoan C. elegans .

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. and Marra,M.A. (

2001

) Changes in gene expression associated with developmental arrest and longevity in Caenorhabditis elegans .

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, pp. 159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (

2003

) The genome sequence of Caenorhabditis briggsae : a platform for comparative genomics.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (

2003

) The COG database: an updated version includes eukaryotes.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) Genome annotation by high-throughput 5′ RNA end determination.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (

2002

) The Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) The Bioperl toolkit: Perl modules for the life sciences.

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. and Stein,L. (

2001

) The distributed annotation system.

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. and Thierry-Mieg,J. (

1998

) Scriptable access to the Caenorhabditis elegans genome sequence and other ACEDB databases.

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. and Gish,W. (

2003

) Serwer WU-Blast2 w European Bioinformatics Institute.

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) Sequence mapping by electronic PCR.

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. and Sternberg,P. (

2004

) Testpresso: an ontology-based information retrieval and extraction system for C. elegans literature.

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. and Hobert,O. (

2004

) CisOrtho: a program pipeline for genome-wide identification of transcription factor target genes using phylogenetic footprinting.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (

2002

) Apollo: a sequence annotation editor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) The generic genome browser: a building block for a model organism system database.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) Baza danych FlyBase projektów genomowych Drosophila i literatury społeczności.

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (

2004

) Saccharomyces Genome Database (SGD) dostarcza narzędzi do identyfikacji i analizy sekwencji z Saccharomyces cerevisiae i powiązanych z nimi sekwencji z innych organizmów.

Nucleic Acids Res.

,

32

(numer bazy danych),

D311

-D314.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(Database issue),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): mapping disease onto the genome.

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (

2004

) The Mouse Genome Database (MGD): integrating biology with the genome.

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. and Birney,E. (

2004

) EnsMart: a generic system for fast and flexible access to biological data.

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. and Karp,P.D. (

2004

) MetaCyc: a multiorganism database of metabolic pathways and enzymes.

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.

Author notes

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute and California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK and 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA

.