Articles

An open-source toolkit for mining Wikipedia

The online encyclopedia Wikipedia is a vast, constantly evolving tapestry of interlinked articles. 開発者や研究者にとって、それは概念や意味関係の巨大な多言語データベースであり、自然言語処理や他の多くの研究分野のための潜在的なリソースとなります。 この論文は、研究者と開発者がWikipediaʼs rich semanticsを自身のアプリケーションに統合することを可能にするオープンソースソフトウェアシステムであるWikipedia Miner toolkitを紹介するものである。 このツールキットは、Wikipediaのコンテンツと構造を要約したデータベースを作成し、それらにアクセスするためのJava APIを含んでいます。 Wikipediaの記事,カテゴリ,リダイレクトはクラスとして表現され,効率的に検索,ブラウズ,反復することができる. 高度な機能として,Wikipediaダンプの並列処理,機械学習による意味的関連性の測定とアノテーション機能,XMLベースのWebサービスなどがある. Wikipedia Minerは、データマイニング技術を共有するためのプラットフォームとなることを意図しています