WormBase: eine umfassende Datenquelle für die Biologie und Genomik von Caenorhabditis
Abstract
WormBase ( http://www.wormbase.org ), die Modellorganismus-Datenbank für Informationen über Caenorhabditis elegans und verwandte Fadenwürmer, wird in Umfang und Tiefe weiter ausgebaut. Im vergangenen Jahr hat WormBase mehrere große Datensätze hinzugefügt, darunter SAGE, Interaktome, 3D-Proteinstrukturdaten und NCBI KOGs. Um diesem Wachstum Rechnung zu tragen, hat das internationale WormBase-Konsortium die Benutzeroberfläche durch neue Funktionen verbessert, die die Navigation, die Visualisierung großer Datensätze, die erweiterte Suche und das Data Mining erleichtern. Intern haben wir die Datenbankmodelle umstrukturiert, um die Darstellung von Genen zu rationalisieren und das System darauf vorzubereiten, im kommenden Jahr die Genomsequenzen von drei weiteren Caenorhabditis-Arten aufzunehmen.
Eingegangen am 21. August 2004; Überarbeitet und angenommen am 5. Oktober 2004
BESCHREIBUNG
WormBase ist die Modellorganismus-Datenbank für die Biologie und Genomik von Caenorhabditis elegans und Caenorhabditis briggsae . Es handelt sich um eine sich schnell entwickelnde Ressource, die durch die Tatsache vorangetrieben wird, dass C.elegans als Modellorganismus für eine Vielzahl biomedizinischer Forschungsthemen, einschließlich Entwicklung, Neurowissenschaften, Apoptose und Alterung ( 1 – 4 ), weit verbreitet ist und eine immer größere Bandbreite an Hochdurchsatzdaten für ihn verfügbar ist. Die Genomsequenz von C. elegans ( 5 ) hat genomweite Forschungsprojekte wie ORFeome ( 6 ), RNA-Interferenz (RNAi) ( 7 ), Microarray ( 8 ), Interaktom (genomweite Protein-Protein-Interaktionen) ( 9 ), serielle Analyse der Genexpression (SAGE) ( 10 , 11 ) und andere Techniken zur Erstellung von Genexpressionsprofilen ( 11 ) gefördert. Diese groß angelegten Datensätze haben den Inhalt von WormBase enorm bereichert ( 2 , 3 ). In jüngster Zeit hat die Verfügbarkeit der gesamten C.briggsae-Genomsequenz ( 12 ), zusätzlich zu der von C.elegans, WormBase als Plattform für vergleichende Genomik innerhalb der Gattung Caenorhabditides etabliert ( 13 ).
Das internationale WormBase-Konsortium, bestehend aus über 30 Wissenschaftlern aus vier Institutionen ( http://wormbase.org/about/people.html ), sammelt und kommentiert sowohl große als auch kleine Datensätze von C.elegans , C.briggsae und verwandten Nematoden, organisiert sie in einer einzigen öffentlichen Datenbank und stellt sie auf der WormBase-Website zum Durchsuchen und Herunterladen bereit. Das Konsortium erwirbt nicht nur direkt hinterlegte Daten durch Kontakte mit der Forschungsgemeinschaft, sondern überprüft und extrahiert auch Daten aus der gesamten veröffentlichten Caenorhabditis-Literatur. Neue Versionen der Datenbank werden alle zwei Wochen zur Verfügung gestellt, um sicherzustellen, dass neue und aktualisierte Datensätze der Gemeinschaft zeitnah zur Verfügung stehen. Dieses Papier gibt einen Überblick über die jüngsten Fortschritte in Bezug auf den Inhalt von WormBase und die Verbesserungen der Benutzeroberfläche, erklärt, wie sich WormBase weiterentwickelt, und erörtert verschiedene Methoden für den Zugriff auf die Daten. Das Papier schließt mit einer Diskussion über neue Funktionen, die für das kommende Jahr geplant sind.
NEUE ERGÄNZUNGEN ZUM INHALT VON WormBase
Im Laufe des letzten Jahres haben wir den Umfang einiger bestehender Datensätze stark erhöht. So hat sich zum Beispiel die Zahl der Microarray-Datenpunkte verfünffacht und die Zahl der Microarray-Experimente dramatisch verzehnfacht, von 8 Experimenten (in 2 Artikeln) auf 113 Experimente (in 15 Artikeln). Auch die Zahl der RNAi-Experimente, die zu einem nicht-wildtypischen Phänotyp führen, hat sich im letzten Jahr mehr als verdoppelt.
Wir verfeinern weiterhin die C.elegans-Genmodelle auf der Grundlage neuer Daten aus der Literatur, neuer Sequenzdaten in den öffentlichen Nukleotiddatenbanken (GenBank/EMBL/DDBJ) und persönlicher Mitteilungen aus der Wurmgemeinschaft. Die meisten Kuratierungsaktivitäten betreffen die Verfeinerung der Struktur bestehender Genmodelle. Wir entfernen jedoch auch weiterhin Genvorhersagen, die nicht mehr gültig sind (z. B. sehr kurze offene Leserahmen), und wir fügen kontinuierlich neue Genvorhersagen hinzu, wo dies angebracht ist (normalerweise entsprechen sie neuen Isoformen eines bestehenden Gens). Trotz der großen Anzahl von neu erstellten und entfernten Genen hat sich die Gesamtzahl der Gene (für proteinkodierende Gene) im Laufe des Jahres nur geringfügig erhöht (+22 Gene). Im Gegensatz dazu ist der Anteil der proteinkodierenden Gene, die nun durch Transkriptdaten bestätigt sind (d. h. bei denen jedes kodierende Exon durch ein Transkript unterstützt wird), im gleichen Zeitraum um 20 % gestiegen (von 4663 auf 5569). Dies ist auf die Verfügbarkeit von mehr Transkriptdaten und die Arbeit der Kuratoren zur Verfeinerung der Genmodelle zurückzuführen, damit diese besser zu den verfügbaren Transkriptdaten passen. Wir haben auch die Methoden, mit denen Transkripte auf das Genom abgebildet und mit Genmodellen verbunden werden, erheblich verbessert.
Im gleichen Zeitraum hat WormBase mehrere neue große experimentelle und theoretische Datensätze hinzugefügt. Zu den bemerkenswerten Ergänzungen gehören groß angelegte SAGE-Datensätze ( 10 , 11 ), der Interaktom-Datensatz ( 9 ), 3D-Strukturdaten und der KOGs-Satz ( 14 ) des National Center for Biotechnology Information (NCBI) mit vorhergesagten orthologen Gruppen. Kürzlich wurde die neu entwickelte Technik trans -spliced exon coupled RNA end determination (TEC-RED) verwendet, um die 5′-Enden von exprimierten Genen in C.elegans zu untersuchen ( 15 ), und der Datensatz wird derzeit kuratiert und in WormBase eingegeben.
Genomweite SAGE
SAGE ( 10 , 11 ) ist eine empfindliche Technik zur Untersuchung genomweiter Genexpressionsniveaus, die eine gute Ergänzung zu Microarray-basierten Techniken darstellt. Ab der Version WS123 enthält WormBase die Ergebnisse von 12 SAGE-Bibliotheken, von denen zwei bereits veröffentlicht wurden ( 10 ). Die 12 Bibliotheken decken verschiedene Entwicklungsstadien ( 11 ) vom Embryo bis zum Erwachsenen ab und berühren 20 417 Gene (kodierende Sequenzen, WS129), die 91,9 % aller im C.elegans-Genom in WormBase annotierten Gene entsprechen (22 213 einschließlich alternativ gespleißter kodierender Sequenzen, WS129). SAGE-Tags, die einem Gen entsprechen, sind am unteren Ende der WormBase-Genseite zu finden (z. B. http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents ) und sind mit Informationen über die Häufigkeit des SAGE-Tags in verschiedenen Lebensstadien auf einer neuen SAGE-Berichtsseite verknüpft (Abbildung 1).
SAGE-Berichtsseite.
SAGE-Berichtsseite.
Interactome
Die Analyse des Interaktionsnetzwerks eines Proteins ist oft ein Schlüssel zum Verständnis seiner biologischen Rolle. WormBase enthält die Ergebnisse des „Interactome Project“, einem groß angelegten Screening auf der Grundlage der Hefe-Two-Hybrid-Technik (Y2H) ( 9 ). Im aktuellen Datensatz sind die Köder auf Gene ausgerichtet, die entweder homolog zu menschlichen Genen sind, die multizelluläre Funktionen haben (Gene mit Homologen in multizellulären Organismen wie Drosophila melanogaster, Homo sapiens und Arabidopsis thaliana, aber nicht in Saccharomyces cerevisiae) oder von denen bekannt ist, dass sie eine Rolle bei Mitose und Meiose spielen. Derzeit enthält WormBase 5534 Interaktionen, die 15 % des Proteoms von C. elegans abdecken. Die Benutzer können diese Interaktionen auf der Seite mit der Genübersicht einsehen.
Dreidimensionale Strukturen von Proteinen
Dieser kleine, aber wichtige Datensatz stammt vom Northeast Structural Genomics Consortium ( http://www.nesg.org ), dessen Ziel es ist, 340 C.elegans-Ziele zu erstellen. Die primären Targets des Konsortiums konzentrieren sich auf Proteine von eukaryotischen Modellorganismen, einschließlich S. cerevisiae und D. melanogaster, zusätzlich zu C. elegans. Derzeit sind die Strukturen von sechs Proteinen in der Protein Data Bank (PDB) hinterlegt ( http://www.rcsb.org/pdb/ ) ( 16 ). Detaillierte Informationen über den Status dieser 340 C.elegans-Targets wurden in die WormBase aufgenommen und werden regelmäßig aktualisiert.
NCBI KOGs
KOGs sind eine eukaryontenspezifische Version der Conserved Orthologous Groups, die ursprünglich am NCBI für mikrobielle Genome entwickelt wurden ( 14 ). KOGs werden durch ein Dreieck reziproker bester BLASTP-Treffer zwischen Domänen von Eukaryotenproteinen aus hochgradig divergenten Arten definiert ( 14 ). Im Laufe des letzten Jahres hat WormBase diese KOG-Annotationen zusammen mit anderen Homologiegruppen aufgenommen ( 14 ). Derzeit enthält WormBase 4852 KOGs, die das Produkt von 9427 proteinkodierenden C.elegans-Genen umfassen (d. h. 48 % aller vorhergesagten proteinkodierenden Gene in WS129).
INTERNE DATENMODELLÄNDERUNGEN UND NEUE IDENTIFIERS
Die Backend-Datenbank von WormBase ist ACeDB ( http://www.acedb.org ) ( 4 ). Im Laufe des letzten Jahres haben wir die Art und Weise geändert, in der eine Reihe von Datentypen in der Datenbank dargestellt werden. Diese Änderungen am Datenbankschema haben keine Auswirkungen auf normale Benutzer. Fortgeschrittene Benutzer, die Skripte für den Zugriff auf WormBase schreiben, müssen sie jedoch beachten. Zu den bedeutenden Modelländerungen gehört die Einführung einer einheitlichen Gen-Klasse ( http://wormbase.org/db/misc/model?class=Gene ), die alle relevanten Informationen über ein Gen enthält. Zuvor waren diese Informationen über mehrere miteinander verknüpfte Klassen verstreut. Gleichzeitig haben wir CDS- und Transkriptklassen eingeführt, um die Beziehungen zwischen gespleißten Transkripten und ihren Produkten besser zu verwalten, und wir haben die Ableitung von Transkriptstrukturen aus cDNA- und EST-Sequenzen erheblich verbessert.
Parallel zu diesen Änderungen haben wir stabile anonyme Bezeichner für Gene in der Form WBGene00006741 und für Papers in der Form WBPaper0005637 eingeführt, in der gleichen Form wie die Personenbezeichner in der Form WBPerson241. Diese Identifikatoren verfolgen die verschiedenen Namen, die für die entsprechende Entität verwendet wurden, und sollten nach Möglichkeit für Querverweise in der Datenbank verwendet werden. Die Website unterstützt URLs der Form http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene . Fragen zu Datenmodellen können an [email protected] gerichtet werden.
ERWEITERUNGEN DER BENUTZERINTERFACE
Erweiterungen des WormBase-Genom-Browsers
Der Genom-Browser ist eine zentrale Komponente von WormBase, die es dem Benutzer ermöglicht, Genmodell-Strukturen und deren Belege sowie andere Merkmale wie Einzelnukleotid-Polymorphismen (SNPs), repetitive Elemente und experimentelle Reagenzien zu visualisieren. Im Laufe des letzten Jahres wurde der Browser in mehrfacher Hinsicht verbessert: (i) Unterstützung von skalierbaren Vektorgrafiken (SVG). Die Bilder des WormBase-Genom-Browsers werden häufig in Präsentationen und Veröffentlichungen verwendet ( 2 , 3 , 17 ), aber ihre Bitmap-Beschaffenheit führt zu einer Verschlechterung der Bildqualität, wenn sie in hoher Auflösung gedruckt werden. Wir haben kürzlich eine Funktion hinzugefügt, die es WormBase-Benutzern ermöglicht, bestimmte Genombrowser-Bilder als SVG-Dateien ( http://www.w3.org/TR/SVG/ ) herunterzuladen, die mit SVG-kompatibler Software wie Adobe Illustrator 10 angezeigt, bearbeitet und in hoher Auflösung gedruckt werden können. (ii) Hervorhebung von Merkmalen . Um das Auffinden und die Visualisierung von interessanten Merkmalen zu erleichtern, hebt WormBase jetzt das Merkmal, das die Benutzer bei einer Suche gefunden haben, mit einem gelben Hintergrund hervor. Diese Änderung ist besonders nützlich, wenn Benutzer in einem großen Fenster mit mehreren Spuren suchen. (iii) Untranslatierte Regionen ( UTRs ). Sowohl das interne Datenmodell als auch die visuelle Darstellung wurden geändert, um die nicht translatierten Abschnitte von Transkripten sowie interne Spleißungen anzuzeigen, die innerhalb der 5′- oder 3′-UTRs auftreten. (iv) Weitere Merkmalsspuren, einschließlich SNPs, SAGE-Tags, Operon, Poly(A)-Stellen und vorhergesagte Signalsequenzen. (v) DAS-Unterstützung. Der Genom-Browser kann jetzt als Viewer für DAS (Distributed Annotation System)-Spuren ( 18 ) verwendet werden, so dass die Nutzer ihre eigenen Annotationen über die WormBase-Spuren legen können.
EST-Alignment-Seite und Protein-Alignment-Seite
WormBase verwaltet nun Alignments auf Nukleotid-Ebene von ESTs, cDNAs und anderen Sequenzen sowohl innerhalb als auch zwischen Arten. Beispielsweise kann das Alignment zwischen den Genomen von C. elegans und C. briggsae sowohl in einer niedrig aufgelösten Ansicht betrachtet werden, die die Beziehung zwischen einer Gruppe kolinearer Gene hervorhebt ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ), als auch in einer hochauflösenden Text-Alignment-Ansicht, die Unterschiede in einzelnen Nukleotiden zeigt. ESTs und cDNAs von C. elegans und anderen Fadenwürmern können in einer Mehrfach-Alignment-Ansicht angezeigt werden, die Fehlausrichtungen und Lücken hervorhebt ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).
Auf Proteinebene unterhält WormBase eine Liste der besten BLAST-Übereinstimmungen mit den längsten Proteinprodukten anderer wichtiger Spezies wie Mensch ( H.sapiens ), Maus ( Mus musculus ), Ratte ( Rattus norvegicus ), Fliege ( D.melanogaster ), Hefe ( S.cerevisiae ) und C.briggsae , die zusammen Einblicke in die Funktion der entsprechenden Gene geben können. Alle BLAST-Ergebnisse sind mit einem Hyperlink zu einem entsprechenden Eintrag in der jeweiligen Modellorganismus-Datenbank oder zu Swiss-Prot/TrEMBL versehen. In der Anzeige des Mehrfach-Alignments werden konservierte Aminosäurereste durch einen Farbcode hervorgehoben, der auf den chemischen Eigenschaften der Reste basiert (Abbildung 2).
Protein-Alignment-Seite.
Protein-Alignment-Seite.
WormBase-Site-Map und WormBase-Glossar
Im Laufe des letzten Jahres haben wir eine WormBase-Site-Map ( http://wormbase.org/db/misc/site_map ) hinzugefügt, um einen Überblick über die wachsende Zahl von Webseiten zu geben. Die Benutzer können diese Karte direkt über das Navigationsbanner oben auf jeder WormBase-Seite aufrufen. Die Sitemap-Seite listet alle WormBase-Seiten auf und bietet den Benutzern verschiedene Ansichten. So können die Benutzer beispielsweise die „Detailansicht“ wählen, um einen kurzen Überblick über die einzelnen Seiten zu erhalten, bevor sie die Seiten durchblättern. Und die „Alphabetische Ansicht“ listet die gesuchten Seiten in alphabetischer Reihenfolge auf. Vor kurzem hat WormBase eine Glossarseite ( http://dev.wormbase.org/db/misc/glossary ) eingerichtet, auf der Definitionen der auf der Website verwendeten Begriffe aufgeführt sind.
WormBase ALS PLATTFORM FÜR DAS DATA-MINING
Da Biologen große Datensätze immer anspruchsvoller nutzen, besteht ein zunehmender Bedarf an einer Ressource, die mehr ist als ein Point-and-Click-Repository, sondern auch Datenanalyse- und Mining-Tools bietet. Dieser Abschnitt beschreibt kurz die bestehenden und kürzlich eingeführten Funktionen, die WormBase für Data Mining geeignet machen.
Zugriff auf WormBase und Abfrage
Es gibt fünf verschiedene Methoden für den Zugriff auf WormBase, die jeweils für unterschiedliche Zwecke geeignet sind. Die Benutzer können je nach ihren Erfahrungen und Bedürfnissen die am besten geeigneten Zugriffsmethoden wählen.
-
Website durchsuchen . Dabei handelt es sich um einen Ansatz, bei dem jeweils nur ein Element eingegeben wird. WormBase-Benutzer betreten WormBase in der Regel von der Startseite aus und suchen das gewünschte Gen (oder andere Elemente) im Suchfeld. Alternativ können die Benutzer die WormBase-Site-Map öffnen, indem sie auf einen Link im oberen Navigationsbanner klicken und eine bestimmte Webseite für die Suche eingeben, entweder nach Sequenz (BLAST oder BLAT) oder nach Text. Sobald die Benutzer das gewünschte Element gefunden haben, können sie über die Links verwandte Webseiten durchsuchen. Der Vorteil der Arbeit mit WormBase auf diese Weise ist, dass die Benutzer detaillierte Ansichten und Informationen über die Objekte von Interesse erhalten können.
-
Batchabruf . WormBase-Benutzer haben zunehmend das Bedürfnis, maßgeschneiderte Batch-Berichte zu erhalten. Um diesem Bedarf gerecht zu werden, bietet WormBase zwei Web-Suchseiten: „Batch Genes“ und „Batch Sequences“ ( 2 ). Auf der Seite „Batch Genes“ können die Nutzer alle biologisch interessanten Gendatenfelder abrufen, von externen Datenbank-IDs bis hin zu Proteinmotiven, GO-Begriffen, genomischen Positionen, Phänotypen und zugrunde liegenden DNA- und Proteinsequenzen. Auf dieser Seite haben die Nutzer die Möglichkeit, die Ergebnisse im reinen Text- oder im HTML-Format herunterzuladen, und es gibt eine Vielzahl von Möglichkeiten, die gewünschten Gene auszuwählen. Die Seite „Batch Sequences“ ist ideal, um sequenzbasierte Daten wie UTRs, Introns, mutmaßliche Promotorelemente usw. abzurufen. Mit dieser Funktion können Sie beispielsweise Sequenzdateien erzeugen, die aus einer bestimmten Länge von Upstream-Sequenzen einer ausgewählten Gruppe von proteinkodierenden Genen bestehen. Beide Seiten sind über das obere Navigationsbanner leicht zugänglich. Der Vorteil dieser Suchmethode ist, dass sie Ergebnisse für eine große Anzahl von Elementen (Genen) liefert.
-
Suche in Abfragesprache . Für Benutzer, die mit den Abfragesprachen der ACeDB-Datenbank vertraut sind und mit den WormBase-Datenbankmodellen vertraut sind, stellt die Abfragesprachen-Suche eine schnelle und vielseitige Methode zur Suche in WormBase dar. Es gibt zwei Seiten für die Suche in Abfragesprachen: eine für die WormBase-Abfragesprache, die ursprüngliche ACeDB-Abfragesprache, und eine weitere für AQL, die neue ACeDB-Abfragesprache, die mehr an SQL angelehnt ist. Diese Seiten können von der WormBase-Seite ‚Site Map‘ aus aufgerufen werden. Für Benutzer, die mit den ACeDB-Abfragesprachen nicht vertraut sind, bieten die Suchseiten Anleitungen und Beispielabfragen. Der Hauptvorteil besteht darin, dass die Benutzer anspruchsvolle Ad-hoc-Abfragen formulieren können.
-
Massenweise Downloads . Die Benutzer können ganze Gensätze oder sogar die gesamte Datenbank selbst herunterladen. WormBase stellt auf seiner FTP-Seite eine Reihe von Datenbankauszügen zur Verfügung, darunter Koordinaten von Genen und anderen Merkmalen, Proteinsequenzen, Genspleißdaten und Informationen zur genetischen Kartierung. Das gesamte Genom und seine Annotationen sind in einem Tabellenformat verfügbar, das in eine Vielzahl relationaler Datenbanken wie MySQL, PostgreSQL und Oracle geladen und abgefragt werden kann. Für jede Version wird eine Tabelle bereitgestellt, die PCR-Produkte, wie sie für Microarrays und RNAi-Experimente verwendet werden, mit aktuell annotierten Genen verknüpft. WormBase stellt die gesamte Datenbank auch im ACeDB-Format zur Verfügung. Der Vorteil dieser Methode besteht darin, dass die Benutzer für den Datenabruf nicht auf das Internet angewiesen sind, so dass ihre Datenverarbeitung nicht durch den Internetzugang eingeschränkt ist. Problematisch an dieser Methode ist, dass die Benutzer mit der Art der Datensätze und den Datenbankmodellen sehr vertraut sein müssen.
-
Skripting . Für fortgeschrittene Benutzer, die sich mit der Skriptprogrammierung auskennen, bietet WormBase einen frei zugänglichen Server „aceserver“ (unter http://aceserver.cshl.org ) für den direkten Zugriff auf die WormBase-Datenbank im Hintergrund ( 19 ). Auf der WormBase-Anleitungsseite für Data Mining finden Forscher Einzelheiten zur Verbindung mit diesen Datenbanken über die Perl ( http://www.perl.org ) -Anwendungsprogrammierschnittstelle AcePerl ( http://stein.cshl.org/AcePerl ) sowie ein Skript-Repository mit wiederverwendbaren Perl-Skripts. Die Benutzer können diese Skripte auf ihren lokalen Rechnern ausführen und sie als Vorlagen für die Anpassung ihrer eigenen Skripte verwenden. Der größte Vorteil besteht darin, dass die Benutzer die Suchergebnisse in dem von ihnen gewünschten Umfang abfragen, formatieren und verarbeiten können. Ein offensichtlicher Nachteil ist, dass die Benutzer einige Programmierkenntnisse erwerben müssen. Dies wird jedoch bei fortgeschrittenen Nutzern immer beliebter.
Spezialisierte Data-Mining-Tools
Als Plattform für die Sequenzanalyse hat WormBase den Benutzern eine große Anzahl von Sequenzanalysetools zur Verfügung gestellt. Zu diesen Tools gehören BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), Coordinate Mapper, EST Aligner und Protein Aligner. Im vergangenen Jahr wurde WormBase um zwei neue Data-Mining-Tools erweitert: Textpresso ( http://www.textpresso.org ) ( 23 ), ein Tool zur Literatursuche, und CisOrtho ( 24 ), ein Tool zur vergleichenden Suche nach Cis-Elementen. Textpresso ist eine Volltextsuchmaschine, die es Forschern ermöglicht, den gesamten WormBase-Literaturbestand zu durchsuchen, der einen beträchtlichen Teil der C.elegans- und C.briggsae-Literatur umfasst. Derzeit enthält die Textpresso-Datenbank 19 985 kuratierte Dokumente, von denen 4420 Volltexte enthalten. Diese Dokumente stammen aus vier Hauptquellen: (i) CGC-Artikel. Dabei handelt es sich um wissenschaftliche Zeitschriftenartikel, die vom Caenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ) verwaltet werden; (ii) Zusammenfassungen von Worm Meetings; (iii) Zusammenfassungen der Worm Breeders Gazette; und (iv) Sonstiges . Dies sind verschiedene andere Zusammenfassungen mit Daten über C.elegans und C.briggsae . Eine weitere nützliche Funktion von Textpresso ist, dass es die Sätze zurückgibt, die die Schlüsselwörter enthalten, mit Links zu WormBase- und PubMed-Seiten.
CisOrtho ( 24 ) geht von einer Konsens-Bindungsstelle aus, die als Gewichtsmatrix dargestellt wird. Es identifiziert potenzielle Stellen in einem vorgefilterten Genom und filtert dann weiter, indem es die Erhaltung der mutmaßlichen Stelle im Genom einer verwandten Spezies bewertet, ein Prozess, der phylogenetisches Footprinting genannt wird. CisOrtho kann unter http://www.wormbase.org/cisortho/ aufgerufen werden.
DATABASE FREEZES
In der Vergangenheit stellte die vierzehntägige Aktualisierungspolitik von WormBase ein Problem für Forscher dar, die Ergebnisse veröffentlichten, die auf dem Mining von WormBase basierten, da zum Zeitpunkt der Veröffentlichung ihrer Ergebnisse die Version von WormBase, auf der ihre Analyse basierte, bereits überholt war. Um solche Forschungen zitierfähig und reproduzierbar zu machen, haben wir eine neue Richtlinie eingeführt, nach der jede zehnte WormBase-Version zu einer eingefrorenen Version wird. Eingefrorene Versionen sind auf Dauer auf speziell dafür vorgesehenen WormBase-Seiten mit den Namen http://ws100.wormbase.org , http://ws110.wormbase.org usw. verfügbar. Die erste eingefrorene Version war http://ws100.wormbase.org , die am 10. Mai 2003 veröffentlicht wurde. Der jüngste Freeze ist http://ws130.wormbase.org , der am 16. August 2004 freigegeben wurde. Forscher werden ermutigt, umfangreiche Analysen mit einer eingefrorenen Version durchzuführen und die Versionsnummer in ihren Veröffentlichungen zu nennen. Verweise auf alle Freezes werden auf der Startseite der WormBase-Live-Site angezeigt.
Kooperationen mit anderen Modellorganismus-Datenbanken
WormBase ist Teil des GMOD-Projekts ( 25 , 26 ), einer breit angelegten Zusammenarbeit zwischen Modellorganismus-Datenbanken zur Entwicklung gemeinsamer Vokabulare, Datenmodelle, Software-Tools und Benutzeroberflächen, die für alle Modellorganismus-Datenbanken gelten. Im Rahmen dieses Projekts bietet WormBase auf Sequenzähnlichkeit basierende Links zwischen seinen Genseiten und den Genseiten von FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ) und Reactome ( http://www.reactome.org ). Links zu RGD ( 30 ) und MGD ( 31 ) sind geplant.
Kürzlich wurde im Rahmen des GMOD-Projekts eine gemeinsame Darstellung genomischer Sequenzmerkmale entwickelt, die so genannte Sequenz-Ontologie ( http://song.sourceforge.net ), die den Austausch genomischer Annotationen zwischen den verschiedenen MODs erleichtert und die Verwendung gemeinsamer Analyse- und Visualisierungswerkzeuge fördert. Die GMOD-Teilnehmer verwenden bereits gemeinsame Softwarepakete auf ihren Websites, um Genom-Annotationen zu visualisieren, genetische Karten zu zeichnen und die Literatur zu durchsuchen, und diese Konvergenz wird sich in naher Zukunft noch verstärken, wenn die MODs zu einer einheitlichen Genseite übergehen.
ZUKÜNFTIGE RICHTUNGEN
WormBase hat sich von ACeDB ( http://www.acedb.org ) zu einer Datenbank entwickelt, die die Literaturpflege und die Biologie von C. elegans ( 4 ) umfasst, und in jüngster Zeit zu einer Datenbank, die die Biologie und die genomischen Daten mehrerer Nematodenarten ( 2 , 3 ) enthält. WormBase befindet sich noch in der Entwicklung. Zu den künftigen Verbesserungen der Benutzeroberfläche gehört WormMart, das auf BioMart basiert, einem fortschrittlichen Abfrage- und Berichtserstellungssystem, das ursprünglich für die Verwendung mit Ensembl entwickelt wurde ( 32 ). Was die Daten betrifft, so freuen wir uns auf die Sequenzierung und Annotation der Genome von drei weiteren Nematodenarten ( http://genome.gov/page.cfm?pageID=10002154 ), wodurch sich die Zahl der von WormBase verwalteten Caenorhabditis-Genome auf fünf erhöht. Im Laufe des Jahres 2005 plant WormBase die Einführung eines Browsers für den intermediären Stoffwechsel von Fadenwürmern und biologische Stoffwechselwege höherer Ordnung. Der Pfad-Browser und der zugrunde liegende Datensatz werden in Zusammenarbeit mit den Projekten Reactome und MetaCyc ( http://metacyc.org/ ) ( 33 ) entwickelt. Zusammen werden sie eine einzigartige Ressource für die Analyse funktioneller Elemente in den Caenorhabditis-Genomen darstellen und wertvolle Einblicke in die Evolution und die biologischen Anpassungen dieser Organismen ermöglichen.
Das WormBase-Konsortium wird sich weiterhin mit den von den WormBase-Nutzern aufgeworfenen Fragen befassen und sowohl eine einfache und freundliche Benutzeroberfläche beibehalten als auch weitere Such- und Forschungswerkzeuge hinzufügen, um die Entwicklung von WormBase von einem Datenspeicher zu einer Ressource für alle Biologen zu ermöglichen, um den Wert der Forschung an Modellorganismen in C.elegans und seinen Verwandten zu maximieren.
Wie immer begrüßen wir Kommentare, Fragen, Korrekturen und Dateneinsendungen ( [email protected] ).
Die Online-Version dieses Artikels wurde im Rahmen eines Open-Access-Modells veröffentlicht. Die Nutzer sind berechtigt, die Open-Access-Version dieses Artikels für nichtkommerzielle Zwecke zu nutzen, zu vervielfältigen, zu verbreiten oder auszustellen, vorausgesetzt, dass: die ursprüngliche Autorenschaft ordnungsgemäß und vollständig angegeben wird; die Zeitschrift und Oxford University Press als ursprünglicher Veröffentlichungsort mit den korrekten Zitierangaben genannt werden; wenn ein Artikel später nicht vollständig, sondern nur teilweise oder als abgeleitetes Werk vervielfältigt oder verbreitet wird, muss dies deutlich angegeben werden. Für Genehmigungen zur kommerziellen Weiterverwendung wenden Sie sich bitte an [email protected].
P.W.S. ist ein Forscher des Howard Hughes Medical Institute. Wir danken Sheldon McKay und Kris Gunsalus für das kritische Lesen des Manuskripts. WormBase wird durch den Zuschuss P41-HG02223 des US National Human Genome Research Institute und des British Medical Research Council unterstützt.
Riddle,D.L., Blumenthal,T., Meyer,B.J. und Priess,J.R. (
) C. elegans II . Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.
Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. et al . (
) WormBase: eine artenübergreifende Ressource für die Biologie und Genomik von Fadenwürmern.
,
(Database issue),
-D417.
Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (
) WormBase: eine speziesübergreifende Datenbank für vergleichende Genomik.
,
,
-137.
Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. und Spieth,J. (
) WormBase: Netzzugang zum Genom und zur Biologie von Caenorhabditis elegans .
,
,
-86.
The C.elegans Sequencing Consortium (
) Genome Sequence of the nematode C.elegans : a platform for investigating biology.
,
,
-2018.
Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (
) WormBase as an integrated platform for the C. elegans ORFeome.
,
-2161.
Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (
) Systematische Funktionsanalyse des Genoms von Caenorhabditis elegans mittels RNAi.
,
,
-237.
Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M., Eizinger,A., Wylie,B.N. und Davidson,G.S. (
) A gene expression map for Caenorhabditis elegans .
,
,
-2092.
Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al . (
) Eine Karte des Interaktom-Netzwerks des Metazoen C. elegans .
,
,
-543.
Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L., Waterston,R. und Marra,M.A. (
) Veränderungen der Genexpression im Zusammenhang mit Entwicklungsstillstand und Langlebigkeit bei Caenorhabditis elegans .
,
,
-1352.
McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. et al . (
) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol. 68, S. 159-170.
Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al . (
) Die Genomsequenz von Caenorhabditis briggsae : eine Plattform für vergleichende Genomik.
,
,
.
Gupta,B.P. und Sternberg,P.W. (
) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .
,
,
.
Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R., Mekhedov,S.L., Nikolskaya,A.N. et al . (
) Die COG-Datenbank: eine aktualisierte Version umfasst Eukaryoten.
,
,
.
Hwang,B.J., Muller,H.M. und Sternberg,P.W. (
) Genome annotation by high-throughput 5′ RNA end determination.
,
,
-1655.
Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z., Gilliland,G.L., Iype,L., Jain,S. et al . (
) The Protein Data Bank.
,
,
-907.
Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (
) The Bioperl toolkit: Perl-Module für die Biowissenschaften.
,
,
-1618.
Dowell,R.D., Jokerst,R.M., Day,A., Eddy,S.R. und Stein,L. (
) Das verteilte Annotationssystem.
,
,
.
Stein,L.D. und Thierry-Mieg,J. (
) Skriptfähiger Zugriff auf die Genomsequenz von Caenorhabditis elegans und andere ACEDB-Datenbanken.
,
,
-1315.
Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. und Gish,W. (
) WU-Blast2 Server am Europäischen Bioinformatik-Institut.
,
,
-3798.
Kent,W.J. (
) BLAT-the BLAST-like alignment tool.
,
,
-664.
Schuler,G.D. (
) Sequenzkartierung durch elektronische PCR.
,
,
-550.
Muller,H.M., Kenny,E. und Sternberg,P. (
) Testpresso: an ontology-based information retrieval and extraction system for C. elegans literature.
,
,
.
Bigelow,H.R., Wenick,A.S., Wong,A. und Hobert,O. (
) CisOrtho: eine Programm-Pipeline für die genomweite Identifizierung von Transkriptionsfaktor-Zielgenen mit Hilfe von phylogenetischem Footprinting.
,
,
.
Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L., Birney,E., Crosby,M.A. et al . (
) Apollo: ein Editor zur Sequenzannotation.
,
, RESEARCH0082.
Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (
) Der generische Genom-Browser: ein Baustein für eine Systemdatenbank für Modellorganismen.
,
,
-1610.
FlyBase (
) Die FlyBase-Datenbank der Drosophila-Genomprojekte und Community-Literatur.
,
,
-175.
Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al . (
) Die Saccharomyces Genome Database (SGD) bietet Werkzeuge zur Identifizierung und Analyse von Sequenzen aus Saccharomyces cerevisiae und verwandten Sequenzen aus anderen Organismen.
,
(Datenbankausgabe),
-D314.
Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (
) Ensembl 2004.
,
(Database issue),
-D470.
Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (
) Rattengenomdatenbank (RGD): Kartierung von Krankheiten auf dem Genom.
,
,
-128.
Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M., Beal,J.S., Boddy,W.J. et al . (
) Die Maus-Genom-Datenbank (MGD): Integration der Biologie mit dem Genom.
,
(Database issue),
-D481.
Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P., Cox,T. und Birney,E. (
) EnsMart: ein generisches System für schnellen und flexiblen Zugriff auf biologische Daten.
,
,
-169.
Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S., Arnaud,M., Pick,J., Rhee,S.Y. und Karp,P.D. (
) MetaCyc: a multiorganism database of metabolic pathways and enzymes.
,
(Database issue),
-D442.
Autorenhinweise
Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute and California Institute of Technology, Pasadena, CA, USA, 2Genome Sequencing Center, Washington University, St Louis, MO, USA, 3The Wellcome Trust Sanger Institute, Hinxton, UK und 4The Watson School of Biological Sciences, Cold Spring Harbor, NY 11724, USA