Articles

WormBase: a comprehensive data resource for Caenorhabditis biology and genomics

Abstract

線虫と関連線虫に関する情報のモデル生物データベースWormBase ( http://www.wormbase.org ) は幅と深さを広げ続けている。 過去1年間で、WormBase は SAGE、インタラクトーム、3Dタンパク質構造データセット、NCBI KOGs などの複数の大規模データセットを追加しました。 この成長に対応するため、国際WormBaseコンソーシアムは、ナビゲーション、大規模データセットの可視化、高度な検索、データマイニングを支援する新機能を追加し、ユーザーインターフェースを改善しました。 内部的には、遺伝子の表現を合理化するためにデータベースモデルを再構築し、今後1年間でさらに3種のCaenorhabditisのゲノム配列を受け入れるためのシステムを準備しました。

Received August 21, 2004; Revised and Accepted October 5, 2004

DESCRIPTION

WormBase は線虫とブリグザーの生物とゲノムのモデル生物データベースである。 線虫は、発生、神経科学、アポトーシス、老化など、様々な生物医学研究のモデル生物として広く利用されており( 1 – 4 )、ますます幅広いハイスループット・データが利用可能になっていることから、急速に発展しているリソースであると言えます。 線虫のゲノム配列( 5 )は、ORFeome( 6 )、RNA interference (RNAi) ( 7 )、マイクロアレイ( 8 )、interactome (genome-wide protein-protein interactions) ( 9 )、 serial analysis of gene expression (SAGE) ( 10 , 11 )、その他の遺伝子発現プロファイル技術( 11 )などゲノム規模の研究プロジェクトを後押ししています。 これらの大規模なデータセットにより、WormBase のコンテンツは非常に充実しています ( 2 , 3 ) 。 さらに最近では、C.elegans のゲノム配列に加えて C.briggsae の全ゲノム配列 ( 12 ) が利用可能になり、WormBase は Caenorhabditides 属間の比較ゲノム解析のプラットフォームとして確立しました ( 13 )。

国際WormBaseコンソーシアムは、4つの研究機関から30名以上の研究者が参加し( http://wormbase.org/about/people.html )、C.elegans , C.briggsae および関連線虫の大規模および小規模なデータを収集・注釈し、単一の公開データベースに整理し、WormBase ウェブサイトで閲覧やダウンロードができるようにしたものである。 研究コミュニティとの連携により直接寄託されたデータを取得するほか、Caenorhabditisの全公表文献をレビューしてデータを抽出しています。 データベースの新しいリリースは2週間ごとに提供され、新しいデータセットや更新されたデータセットがタイムリーに研究者に提供されることを確実にしている。 この論文では、WormBaseのコンテンツとユーザーインターフェースの改善に関する最近の進歩をレビューし、WormBaseがどのように進化しているかを説明し、データにアクセスするためのさまざまな方法について議論します。 最後に、来年度に予定されている新機能について述べて、このペーパーを締めくくります。

RECENT ADDITIONS TO WormBase CONTENTS

過去1年間で、いくつかの既存データセットのサイズを大幅に増加させました。 例えば、マイクロアレイのデータポイントが5倍、マイクロアレイの実験数が8実験(2論文で報告)から113実験(15論文で報告)へと劇的に13倍増加しています。 また、野生型以外の表現型をもたらすRNAi実験の数も、この1年で2倍以上になった。

我々は、文献に現れる新しいデータ、公開ヌクレオチドデータベース(GenBank/EMBL/DDBJ)の新しい配列データ、およびワームコミュニティからの個人的なコミュニケーションに基づいて、線虫遺伝子モデルの改良を続けている。 ほとんどのキュレーション活動では、既存の遺伝子モデルの構造を改良しています。 しかし、もはや有効でない遺伝子予測(例:非常に短いオープンリーディングフレーム)を削除し、必要に応じて新しい遺伝子予測を継続的に追加しています(通常は既存の遺伝子の新しいアイソフォームに対応する)。 多くの遺伝子が作成、削除されたにもかかわらず、総遺伝子数(タンパク質コード化遺伝子)は1年間でわずかな純増(22遺伝子)にとどまっています。 これとは対照的に、転写産物データによって確認されたタンパク質コード遺伝子の割合(すなわち、すべてのコード化エクソンが転写産物のサポートを有する)は、同じ期間に20%増加しました(4663から5569まで)。 これは、より多くの転写データが利用可能になったことと、利用可能な転写データにより適合するように遺伝子モデルを改良するキュレーターの作業によるものです。 また、転写産物をゲノム上にマッピングし、遺伝子モデルに接続する方法も大幅に改善されました。

同じ期間に、WormBaseはいくつかの新しい大規模な実験的および理論的データセットを追加しました。 注目すべきは、大規模な SAGE データセット ( 10 , 11 ) 、インタラクトームデータセット ( 9 ) 、3D 構造データ、そして予測されるオーソロググループの NCBI (National Center for Biotechnology Information) KOGs ( 14 ) セットなどである。 最近、新たに開発されたtrans-spliced exon coupled RNA end determination (TEC-RED) 技術を用いて、線虫の発現遺伝子の5末端を解析し ( 15 ) 、そのデータセットをキュレーションしてWormBaseに登録中である。

Genome-wide SAGE

SAGE ( 10 , 11 ) は、ゲノム全体の遺伝子発現レベルをアッセイする高感度な手法で、マイクロアレイを用いた手法の補完に適している。 WS123 リリースでは、WormBase は 12 個の SAGE ライブラリの結果を組み込んでおり、そのうちの 2 個は以前に発表されている ( 10 ) 。 12のライブラリは、胚から成体までの様々な発生段階( 11 )をカバーし、WormBaseのC.elegansゲノムにアノテーションされた全遺伝子の91.9%に相当する20 417遺伝子(コーディング配列, WS129)に触れています(オルタナティブスプライシングを含む22 213のコーディング配列, WS129)。 遺伝子に対応するSAGEタグは、WormBaseの遺伝子ページ(例: http://www.wormbase.org/db/gene/gene?name=ced-3#Reagents )の下部にあり、新しいSAGEレポートページ(図1)の様々なライフステージでのSAGEタグの存在量の詳細情報にリンクされています。

Figure 1.

SAGE report page.

Figure 1.

SAGE report page.

Interactome

タンパク質の相互作用を解明することはしばしばその生物的役割を知るための鍵となることがあります。 WormBaseには、yeast two-hybrid (Y2H) 技術に基づく大規模なスクリーニングである ‘Interactome Project’ の結果が含まれている ( 9 ) 。 現在のデータセットでは、ベイトはヒト遺伝子に相同な遺伝子、多細胞機能を持つ遺伝子(Drosophila melanogaster, Homo sapiens, Arabidopsis thaliana を含む多細胞生物に相同な遺伝子を持ち、Saccharomyces cerevisiae にはない)、または有糸分裂と減数分裂における役割が知られているものに偏りがある。 現在、WormBase には、C.elegans プロテオームの 15% をカバーする 5534 の相互作用が含まれています。 これらの相互作用は、遺伝子サマリーページで見ることができます。

Protein three-dimensional structures

この小さいが重要なデータセットは Northeast Structural Genomics Consortium ( http://www.nesg.org ) によるもので、340 の C.elegans ターゲットを生成することを目的としている。 このコンソーシアムでは、線虫だけでなく、S.cerevisiae や D.melanogaster などの真核生物モデル生物のタンパク質も主要なターゲットとしている。 現在、6つのタンパク質の構造がProtein Data Bank (PDB) ( http://www.rcsb.org/pdb/ ) に登録されている( 16 )。 これら340のC.elegans標的の詳細な情報はWormBaseに含まれており、定期的に更新される予定である。

NCBI KOGs

KOGs はもともと NCBI で微生物ゲノムのために考案された Conserved Orthologous Groups を真核生物に特化したものである ( 14 )。 KOGは、真核生物のタンパク質のドメイン間の相互のBLASTPベストヒットの三角形で定義され、高度に分岐した種からのものである( 14 )。 昨年から、WormBaseは他の相同性グループとともに、これらのKOGアノテーションを組み込んでいる( 14 )。 現在、WormBaseは4852のKOGを持ち、9427のC.elegansタンパク質コード遺伝子の産物を含んでいます(つまり、WS129で予測された全タンパク質コード遺伝子の48%)。

INTERNAL DATA MODEL CHANGES AND NEW IDENTIFIERS

WormBaseのバックエンドデータベースはACeDB ( http://www.acedb.org ) ( 4 )であり、WormBaseはこのACeDBを使用しています。 昨年中に、いくつかのデータ型がデータベースで表現される方法を変更しました。 これらのデータベーススキーマの変更は、通常のユーザには影響しません。 しかし、WormBase にアクセスするためのスクリプトを書く上級ユーザは、それについて知っておく必要があります。 重要なモデル変更には、統一された Gene クラス ( http://wormbase.org/db/misc/model?class=Gene ) の導入があります。これは、遺伝子に関するすべての関連情報を保持します。 以前は、そのような情報はいくつかの相互に関連したクラスに散らばっていました。 同時に、スプライシングされた転写物とその生成物の関係をより良く管理するためにCDSとTranscriptクラスを導入し、cDNAとEST配列からの転写物の構造の導出を大幅に改善しました。

これらの変更に伴い、WBGene00006741 という形式の遺伝子用、および WBPaper0005637 という形式の論文用の、WBPerson241 という形式の人物識別子と同じ形式の、安定した匿名識別子が導入されました。 これらの識別子は、対応する実体に使用されてきた様々な名前を追跡し、データベースの相互参照に可能な限り使用されるべきものです。 このウェブサイトは http://www.wormbase.org/db/get?name=WBGene00006741;class=Gene という形式の URL をサポートしています。 データモデルに関するご質問は、[email protected] までお願いします。

USER INTERFACE ENHANCEMENTS

Enhancements to WormBase genome browser

Genome browser は WormBase の中心コンポーネントで、遺伝子モデル構造とそれを裏付ける証拠、さらに一塩基多型 (SNP) や反復要素、実験試薬などの特徴を可視化するためのもので、ユーザーはこの機能を使用できます。 この1年間で、このブラウザはいくつかの点で強化されました。 (i) スケーラブル・ベクター・グラフィックス(SVG)のサポート. WormBase ゲノムブラウザの画像はプレゼンテーションや出版物の挿絵に広く使われていますが ( 2 , 3 , 17 ) 、そのビットマップの性質上、高解像度で印刷すると画像の劣化を招きます。 そこで、WormBase のユーザーが指定したゲノムブラウザ画像を SVG ファイル ( http://www.w3.org/TR/SVG/ ) としてダウンロードできる機能を追加し、Adobe Illustrator 10 などの SVG 対応ソフトウェアで高解像度での表示・編集・印刷ができるようにしました。 (ii) フィーチャーハイライト. WormBase では、検索でヒットしたフィーチャーを黄色い背景で強調表示するようになりました。 この変更は、大きなウィンドウサイズでマルチトラックをオンにしてブラウズする場合に特に有効です。 (iii) 非翻訳領域(UTR)。 内部データモデルと視覚的表示の両方が、転写産物の未翻訳部分と、5′-または3′-UTR内で発生する内部スプライスを表示するように変更されました。 (SNP、SAGEタグ、オペロン、ポリ(A)サイト、予測されるシグナル配列など、より多くのフィーチャートラックが追加されました。 (v) DASのサポート。 Distributed Annotation System (DAS) ( 18 ) トラックのビューアとしてゲノムブラウザが使用できるようになり、WormBase トラックにユーザー独自のアノテーションをスーパーインポーズすることができるようになりました。

EST alignment page and protein alignment page

WormBase は EST、cDNA、その他の配列の塩基レベルのアラインメントを種内、種間で保持するようになりました。 例えば、C.elegans と C.briggsae のゲノムのアラインメントは、colinar gene のグループ間の関係を強調する低解像度ビュー ( http://www.wormbase.org/db/seq/ebsyn?name=cb25.fpc0143:1..8000 ) と、個々のヌクレオチドの相違を示す高解像度テキストアラインメントの両方で表示することができます。 C.elegansや他の線虫からのESTやcDNAは、ミスアラインメントやギャップをハイライトするmultiple alignment viewで見ることができます ( http://www.wormbase.org/db/seq/aligner?name=WBGene00000423;class=Gene ).

タンパク質レベルでは、ヒト ( H.sapiens )、マウス ( Mus musculus )、ラット ( Rattus norvegicus )、ハエ ( D.melanogaster )、酵母 ( S.cerevisiae )、 C.briggsae などの重要種からの最長タンパク質生成物とBLASTマッチするリストを保持しており、関連遺伝子の機能に対する洞察を得ることが可能です。 すべてのBLAST結果は、それぞれのモデル生物データベースまたはSwiss-Prot/TrEMBLの関連するエントリにハイパーリンクされている(必要に応じて)。 マルチプルアラインメント表示では、保存されたアミノ酸残基を残基の化学的性質に基づいたカラーコードでハイライトしています(図2 )。

Protein alignment page.

Figure 2.

Protein alignment page.を参照。

WormBase site map and WormBase glossary

この1年間で、増え続けるウェブページを概観するために、WormBase site map ( http://wormbase.org/db/misc/site_map ) を追加しています。 このマップは、WormBase の各ページの上部にあるナビゲーションバナーから直接アクセスすることができます。 サイトマップページは WormBase の全ページをリストアップし、ユーザに様々な表示を提供します。 例えば、ユーザーは「詳細表示」を選択して、ページを閲覧する前に個々のページの簡単な概要を把握することができます。 また、’Alphabetical View’ は検索ページをアルファベット順にリストアップする。 最近、WormBase は用語集ページ ( http://dev.wormbase.org/db/misc/glossary ) を設け、このサイト全体で使われている一般的な用語の定義をリストアップしています。

WormBase AS A PLATFORM FOR DATA MINING

生物学者が大規模データセットをより高度に利用するようになると、 ポイントアンドクリックのリポジトリだけでなく、 データ解析やマイニングツールを備えたリソースがますます必要とされています。 このセクションでは、WormBaseをデータマイニングに適したものにする既存および最近導入された機能について簡単に説明する。

WormBase accessing and retrieving

WormBase には5種類のアクセス方法があり、それぞれ異なる目的に適している。 ユーザーは自分の経験や必要性に応じて、最も適切なアクセス方法を選択することができます。

  • Website browsing . これは、1項目ずつのアプローチである。 WormBaseのユーザーは通常、トップページからWormBaseに入り、検索ボックスで興味のある遺伝子(または他の項目)を検索する。 あるいは、上部のナビゲーションバナーのリンクをクリックしてWormBaseサイトマップを開き、配列(BLASTまたはBLAT)またはテキストで検索する特定のウェブページを入力することも可能である。 ユーザーは興味のある項目を見つけたら、リンクをたどって関連するウェブページを閲覧することができる。 この方法でWormBaseを使用する利点は、ユーザが興味のある項目に関する詳細な表示や情報を得ることができることである。

  • バッチリ検索 . WormBaseのユーザーは、カスタマイズされたバッチレポートを取得する必要性が高まっています。 このニーズに対応するため、WormBase は2つのウェブ検索ページを提供している。 Batch Genes’ と ‘Batch Sequences’ ( 2 ) である。 Batch Genes ページでは、外部データベース ID からタンパク質モチーフ、GO ターム、ゲノム位置、表現型、DNA およびタンパク質配列まで、生物学的に興味深い遺伝子データフィールドをすべて取得することができる。 このページでは、結果をプレーンテキストまたは HTML 形式でダウンロードするオプションがあり、関心のある遺伝子のセットを選択するさまざまな方法が提供されています。 Batch Sequences ページは、UTR、イントロン、推定プロモーターエレメントなどの配列ベースのデータを検索するのに適しています。 例えば、タンパク質コード遺伝子の中から、特定の長さの上流配列からなる配列ファイルを作成するのに利用できます。 どちらのページも、トップページのバナーから簡単にアクセスすることができます。 この検索方法の利点は、多数の項目(遺伝子)に対して結果を返すことである。

  • クエリ言語検索. ACeDBデータベースの問い合わせ言語に慣れ、WormBaseデータベースのモデルに精通しているユーザーにとって、問い合わせ言語検索はWormBaseを検索するための迅速で多様な方法である。 一つはオリジナルのACeDB問い合わせ言語であるWormBase問い合わせ言語、もう一つはよりSQLに近い新しいスタイルのACeDB問い合わせ言語であるAQLのための問い合わせ言語検索ページがあります。 これらのページは WormBase の ‘サイトマップ’ ページからアクセスすることができます。 ACeDB の問い合わせ言語についてよく知らないユーザのために、検索ページでは説明と問い合わせの例を提供しています。 主な利点は、ユーザが洗練されたアドホッククエリを作成できることです。

  • Bulk downloads…一括ダウンロード。 遺伝子セット全体、あるいはデータベースそのものをダウンロードすることができる。 WormBase は、遺伝子やその他の特徴の座標、タンパク質配列、遺伝子スプライシングデータ、遺伝子マッピング情報など、多くのデータベース抽出物を FTP サイトで提供している。 ゲノム全体とそのアノテーションは表形式で提供されており、MySQL、PostgreSQL、Oracleを含む様々なリレーショナルデータベースにロードして問い合わせることができる。 マイクロアレイやRNAi実験に使用されるPCR産物と現在アノテーションされている遺伝子とを関連付けるテーブルがリリース毎に提供されている。 また、WormBaseはデータベース全体をACeDBフォーマットで提供している。 この方法の利点は、ユーザーがデータの検索をインターネットに依存する必要がないため、インターネットアクセスによってデータ処理が制限されることがないことである。 この方法の問題点は、データセットの性質やデータベースモデルについて熟知している必要があることである。

  • スクリプト. スクリプトプログラミングができる上級ユーザのために、WormBase はバックエンドの WormBase データベースに直接アクセスできるオープンアクセスサーバ ‘aceserver’ (at http://aceserver.cshl.org ) を提供している ( 19 ) 。 WormBase データマイニングの説明ページでは、Perl ( http://www.perl.org ) アプリケーションプログラミングインターフェース AcePerl ( http://stein.cshl.org/AcePerl ) を使ってこれらのデータベースに接続する方法の詳細と、再利用可能な Perl スクリプトのスクリプトリポジトリが研究者に提供されています。 ユーザーはこれらのスクリプトを自分のローカルマシンで実行し、それをテンプレートとして自分自身のスクリプトをカスタマイズすることができる。 この最大の利点は、ユーザが望む範囲で検索結果のクエリ、フォーマット、処理を行えることである。 欠点は、ユーザーがある程度のプログラミング技術を習得する必要があることだ。 しかし、これは上級ユーザーを中心に人気が高まっている。

Specialized data mining tools

配列解析プラットフォームとして、WormBaseは多数の配列解析ツールをユーザに提供している。 これらのツールには、BLAST ( 20 ), BLAT ( 21 ), ePCR ( 22 ), coordinate mapper, EST aligner, protein aligner がある。 この一年で、文献検索ツールTextpresso ( http://www.textpresso.org ) ( 23 ) と比較シス要素検索ツールCisOrtho ( 24 ) という二つの新しいデータマイニングツールもWormBaseに追加された。 Textpresso は全文検索エンジンであり、WormBase が保有する全文献の本文を検索することができます(C.elegans と C.briggsae の文献のかなりの割合が含まれます)。 現在、Textpressoデータベースには、19985件の精選された文書があり、そのうち4420件は全文が掲載されています。 これらの文書は主に4つのソースから取得されています。 (i) CGC論文. これらはCaenorhabditis Genetics Center ( http://biosci.umn.edu/CGC/CGChomepage.htm ) が管理している科学雑誌の論文、(ii) Worm Meetingsのアブストラクト、(iii) Worm Breeders Gazetteのアブストラクト、および (iv) Miscellaneous …である。 これらは C.elegans と C.briggsae に関するデータを含む他の様々な抄録です。 Textpresso のもう一つの便利な機能は、キーワードを含む文章を、WormBase の論文ページや PubMed ページへのリンクとともに返してくれることです。

CisOrtho ( 24 ) は、重み行列として表されるコンセンサス結合部位から出発して動作する。 また、そのサイトが近縁種のゲノムに保存されているかどうか、系統的フットプリンティング(phylogenetic footprinting)と呼ばれるプロセスによって、さらに絞り込むことができる。 CisOrthoは、http://www.wormbase.org/cisortho/ でアクセスできます。

DATABASE FREEZES

過去に、WormBase の隔週更新ポリシーは、WormBase のマイニングに基づいて結果を発表する研究者に問題を提起しました。 このような研究を引用・再現可能にするために、私たちはWormBaseのリリースを10回ごとに凍結する新しいポリシーを採用しました。 凍結されたリリースは、http://ws100.wormbase.org や http://ws110.wormbase.org などと名付けられた特別に指定された WormBase サイトで永久に利用可能です。 最初の凍結は、2003年5月10日にリリースされた http://ws100.wormbase.org です。 最新のフリーズは、2004年8月16日にリリースされたhttp://ws130.wormbase.orgである。 研究者は,凍結されたリリースで大規模な分析を行い,その出版物にリリース番号を引用することが奨励される. すべてのフリーズへのポインタは、WormBase ライブサイトのフロントページに表示されています。

COLLABORATIONS WITH OTHER MODEL ORGANISM DATABASES

WormBase は GMOD プロジェクト ( 25 , 26 ) の一部で、 モデル生物データベース間の幅広いコラボレーションにより、 すべてのモデル生物コミュニティデータベースで使用できる共通の語彙、 データモデル、 ソフトウェアツール、 ユーザインターフェイスを開発することを目的としています。 このプロジェクトの一環として、WormBase は遺伝子ページと FlyBase ( 27 ), The Saccharomyces Genome Database ( 28 , 29 ), Ensembl ( 29 ), Reactome ( http://www.reactome.org ) の遺伝子ページ間の配列類似度ベースのリンクを提供しています。 RGD ( 30 ) 、MGD ( 31 ) へのリンクも予定されている。

最近、GMODプロジェクトはSequence Ontology ( http://song.sourceforge.net ) として知られるゲノム配列特徴の共通表現を開発し、様々なMOD間のゲノム注釈の交換を容易にし、共通の分析・視覚化ツールの使用を促している。 GMOD参加者はすでに、ゲノムアノテーションの可視化、遺伝地図の作成、文献検索に共通のソフトウェアパッケージをそれぞれのウェブサイトで使用しており、近い将来、MODが統一遺伝子ページに向かうにつれて、この収束はさらに強化されることになるだろう。

FUTURE DIRECTIONS

WormBaseはACeDB(http://www.acedb.org)から発展し、文献のキュレーションと線虫の生物学を網羅したデータベース(4 )、そして最近では複数の線虫種の生物とゲノムデータを収容するデータベース(2 , 3)へと進化しています。 WormBase は現在も進行中である。 ユーザーインターフェースの面では、Ensembl ( 32 ) で使用するために最初に開発された高度なクエリーおよびレポート作成システムである BioMart をベースにした WormMart が将来的に強化される予定である。 データ面では、さらに3種の線虫のゲノム配列決定とアノテーション(http://genome.gov/page.cfm?pageID=10002154)が予定されており、WormBase が保持する Caenorhabditis ゲノム数は5種となる。 2005年、WormBase は線虫の中間代謝と高次の生物パスウェイのブラウザを導入する予定です。 パスウェイブラウザとその基礎となるデータセットは、Reactome および MetaCyc ( http://metacyc.org/ ) ( 33 ) プロジェクトと共同で開発される予定です。 また、このような研究により、カエノラブディティスゲノムの機能的要素を解析するための比類ないリソースを提供し、これらの生物の進化と生物学的適応に関する貴重な洞察を得ることができるであろう。

WormBase Consortium は、WormBase ユーザーが提起した問題に取り組み、シンプルでフレンドリーなユーザーインターフェースを維持しながら、さらに検索・研究ツールを追加し、WormBase をデータリポジトリから、線虫とその近縁種のモデル生物研究の価値を最大限に引き出すために、すべての生物学者に利用していただけるリソースに進化させることを可能にします。

いつものように、コメント、質問、修正、データの提出 ( [email protected] ) をお待ちしています。

この論文のオンライン版は、オープンアクセスモデルで公開されています。 原著者が適切かつ完全に帰属していること、ジャーナルおよびオックスフォード大学出版局が最初の出版地として帰属し、正しい引用の詳細が示されていること、論文がその後、全体ではなく一部または派生作品として複製または普及した場合、そのことが明確に示されていること、などを条件に、ユーザーはこの論文のオープンアクセス版を非営利目的で使用、複製、普及、表示する権利を有します。 商業的な再利用の許可については、[email protected] までご連絡ください。

P.W.S. はハワード・ヒューズ医学研究所の研究員である。 原稿を批判的に読んでくれたSheldon McKayとKris Gunsalusに感謝する。 WormBase は米国国立ヒトゲノム研究所および英国医学研究評議会からの助成金 P41-HG02223 によって支援されています。

Riddle,D.L., Blumenthal,T., Meyer,B.J. and Priess,J.R. (

1997

) C.elegans II . C.エレガンスII.Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY.

Harris,T.W., Chen,N., Cunningham,F., Tello-Ruiz,M., Antoshechkin,I., Bastiani,C., Bieri,T., Blasiar,D., Bradnam,K., Chan,J. and al. . (

2004

) WormBase: a multi-species resource for nematode biology and genomics(線虫の生物学とゲノミクスのための複数種リソース)。

Nucleic Acids Res.

,

32

(Database issue),

D411

-D417.

Harris,T.W., Lee,R., Schwarz,E., Bradnam,K., Lawson,D., Chen,W., Blasier,D., Kenny,E., Cunningham,F., Kishore,R. et al . (

2003

) WormBase: a cross-species database for comparative genomics(ワームベース:比較ゲノムデータベース).

Nucleic Acids Res.

,

31

,

133

-137.

Stein,L., Sternberg,P., Durbin,R., Thierry-Mieg,J. and Spieth,J. (

2001

) WormBase: Caenorhabditis elegans のゲノムと生物学へのネットワークアクセス.

Nucleic Acids Res.

,

29

,

82

-86.

The C.elegans Sequencing Consortium (

1998

) 線虫 C.elegans のゲノム配列 : 生物学を研究するためのプラットフォーム.

Science

,

282

,

2012

-2018.

Chen,N., Lawson,D., Bradnam,K. and Harris,T.W. (

2004

) WormBase as an integrated platform for the C. elegans ORFeome.の項参照。

Genome Res.
14

,

2155

-2161.

Kamath,R.S., Fraser,A.G., Dong,Y., Poulin,G., Durbin,R., Gotta,M., Kanapin,A., Le Bot,N., Moreno,S., Sohrmann,M. et al . (

2003

) RNAiを用いた線虫ゲノムの系統的機能解析.

Nature

,

421

,

231

-237.

Kim,S.K., Lund,J., Kiraly,M., Duke,K., Jiang,M., Stuart,J.M.., Eizinger,A., Wylie,B.N. and Davidson,G.S. (

2001

) A gene expression map for Caenorhabditis elegans .

Science

,

293

,

2087

-2092.

Li,S., Armstrong,C.M., Bertin,N., Ge,H., Milstein,S., Boxem,M., Vidalain,P.O., Han,J.D., Chesneau,A., Hao,T. et al.・・・・・・。 (

2004

) メタゾアンの線虫のインタラクトームネットワークのマップ.

Science

,

303

,

540

-543.

Jones,S.J., Riddle,D.L., Pouzyrev,A.T., Velculescu,V.E., Hillier,L., Eddy,S.R., Stricklin,S.L., Baillie,D.L.., Waterston,R. and Marra,M.A. (

2001

) Caenorhabditis elegansにおける発生停止と長寿に関連した遺伝子発現の変化.

Genome Res.

,

11

,

1346

-1352.

McKay,S.J., Johnsen,R., Khattra,J., Asano,J., Baillie,D.L., Chan,S., Dube,N., Fang,L., Goszczynski,B., Ha,E. and al. . (

2004

) Cold Spring Harbor Symposia on Quantitative Biology . Cold Spring Harbor, NY, Vol.68, pp.159-170.

Stein,L.D., Bao,Z., Blasiar,D., Blumenthal,T., Brent,M.R., Chen,N., Chinwalla,A., Clarke,L., Clee,C., Coghlan,A. et al.など. (

2003

) Caenorhabditis briggsaeのゲノム配列:比較ゲノム学のためのプラットフォーム.

PLoS Biol.

,

1

,

E45

.

Gupta,B.P. and Sternberg,P.W. (

2003

) The draft genome sequence of the nematode Caenorhabditis briggsae , a companion to C. elegans .D.C. .

Genome Biol.

,

4

,

238

.

Tatusov,R.L., Fedorova,N.D., Jackson,J.D., Jacobs,A.R., Kiryutin,B., Koonin,E.V., Krylov,D.M., Mazumder,R.,Mekhedov,S.L., Nikolskaya,A.N. et al. . (

2003

) COGデータベース:真核生物も含む最新版.

BMC Bioinformatics

,

4

,

41

.

Hwang,B.J., Muller,H.M. and Sternberg,P.W. (

2004

) 高処理5′RNA端決定によるゲノムアノテーション.

Proc. Natl Acad. Sci. USA

,

101

,

1650

-1655.

Berman,H.M., Battistuz,T., Bhat,T.N., Bluhm,W.F., Bourne,P.E., Burkhardt,K., Feng,Z.,Gilliland,G.L.,Iype,L.,Jain,S. et al . (

2002

) Protein Data Bank.

Acta Crystallogr. D Biol. Crystallogr.

,

58

,

899

-907.

Stajich,J.E., Block,D., Boulez,K., Brenner,S.E., Chervitz,S.A., Dagdigian,C., Fuellen,G., Gilbert,J.G., Korf,I., Lapp,H. et al . (

2002

) Bioperl toolkit: ライフサイエンスのためのPerlモジュール。

Genome Res.

,

12

,

1611

-1618.

Dowell,R.D., Jokerst,R.M., Day,A.,Eddy,S.R. and Stein,L.. (

2001

) 分散型アノテーションシステム。

BMC Bioinformatics

,

2

,

7

.

Stein,L.D. and Thierry-Mieg,J. (

1998

) 線虫のゲノム配列と他のACEDBデータベースへのスクリプトによるアクセス。

Genome Res.

,

8

,

1308

-1315.

Lopez,R., Silventoinen,V., Robinson,S., Kibria,A. and Gish,W. (

2003

) European Bioinformatics InstituteのWU-Blast2サーバー。

Nucleic Acids Res.

,

31

,

3795

-3798.

Kent,W.J. (

2002

) BLAT-the BLAST-like alignment tool.を開発。

Genome Res.

,

12

,

656

-664.

Schuler,G.D. (

1997

) electronic PCRによるシークエンスマッピング。

Genome Res.

,

7

,

541

-550.

Muller,H.M., Kenny,E. and Sternberg,P. (

2004

) Testpresso: an ontology-based information retrieval and extraction system for C. elegans literature.線虫文献のオントロジーに基づく情報検索・抽出システム。

PLoS Biol.

,

2

,

e309

.

Bigelow,H.R., Wenick,A.S., Wong,A. and Hobert,O. (

2004

) CisOrtho: a program pipeline for genome-wide identification of transcription factor target genes using phylogenetic footprinting.

BMC Bioinformatics

,

5

,

27

.

Lewis,S.E., Searle,S.M., Harris,N., Gibson,M., Lyer,V., Richter,J., Wiel,C., Bayraktaroglir,L.,Birney,E.,Crosby,M.A. et al. . (

2002

) Apollo: A sequence annotation editor.

Genome Biol.

,

3

, RESEARCH0082.

Stein,L.D., Mungall,C., Shu,S., Caudy,M., Mangone,M., Day,A., Nickerson,E., Stajich,J.E., Harris,T.W., Arva,A. et al . (

2002

) 汎用ゲノムブラウザ:モデル生物系データベースのためのビルディングブロック.

Genome Res.

,

12

,

1599

-1610.

FlyBase (

2003

) ショウジョウバエのゲノムプロジェクトおよびコミュニティーの文献を集めたデータベース。

Nucleic Acids Res.

,

31

,

172

-175.

Christie,K.R., Weng,S., Balakrishnan,R., Costanzo,M.C., Dolinski,K., Dwight,S.S., Engel,S.R., Feierbach,B., Fisk,D.G., Hirschman,J.E. et al. . (

2004

) Saccharomyces Genome Database (SGD) は、Saccharomyces cerevisiae および他の生物の関連配列を同定・解析するためのツールです。

Nucleic Acids Res.

,

32

(データベース号),

D311

-D314.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.XXX.

Birney,E., Andrews,D., Bevan,P., Caccamo,M., Cameron,G., Chen,Y., Clarke,L., Coates,G., Cox,T., Cuff,J. et al . (

2004

) Ensembl 2004.

Nucleic Acids Res.

,

32

(データベース号),

D468

-D470.

Twigger,S., Lu,J., Shimoyama,M., Chen,D., Pasko,D., Long,H., Ginster,J., Chen,C.F., Nigam,R., Kwitek,A. et al . (

2002

) Rat Genome Database (RGD): 疾患をゲノム上にマッピングする。

Nucleic Acids Res.

,

30

,

125

-128.

Bult,C.J., Blake,J.A., Richardson,J.E., Kadin,J.A., Eppig,J.T., Baldarelli,R.M., Barsanti,K., Baya,M.,Beal,J.S., Boddy,W.J. et al . (

2004

) マウスゲノムデータベース(MGD):生物学とゲノムを統合する。

Nucleic Acids Res.

,

32

(Database issue),

D476

-D481.に掲載されています。

Kasprzyk,A., Keefe,D., Smedley,D., London,D., Spooner,W., Melsopp,C., Hammond,M., Rocca-Serra,P.,Cox,T. and Birney,E. (

2004

) EnsMart: a generic system for fast and flexible access to biological data.これは、生物学的データに迅速かつ柔軟にアクセスするための汎用システムである。

Genome Res.

,

14

,

160

-169.

Krieger,C.J., Zhang,P., Mueller,L.A., Wang,A., Paley,S.,Arnaud,M., また、このデータベースは、「MetaCyc」と呼ばれる代謝経路と酵素の多生物データベースです。

Nucleic Acids Res.

,

32

(Database issue),

D438

-D442.に掲載されている。

Author notes

Cold Spring Harbor Laboratory, 1 Bungtown Road, Cold Spring Harbor, NY 11724, USA, 1Howard Hughes Medical Institute and California Institute of Technology, 2ゲノムシークエンシングセンター、ワシントン大学、ミズーリ州セントルイス、米国、3ウェルカムトラストサンガー研究所、ヒンクストン、英国、4ワトソン生物科学大学院、コールドスプリングハーバー、ニューヨーク州11724、米国