Articles

An open-source toolkit for mining Wikipedia

Internetowa encyklopedia Wikipedia jest rozległym, stale ewoluującym gobelinem powiązanych ze sobą artykułów. Dla programistów i badaczy stanowi ona gigantyczną wielojęzyczną bazę danych pojęć i relacji semantycznych, potencjalne źródło dla przetwarzania języka naturalnego i wielu innych obszarów badawczych. Niniejszy artykuł przedstawia zestaw narzędzi Wikipedia Miner, system oprogramowania open-source, który pozwala badaczom i programistom integrować bogatą semantykę Wikipedii w ich własnych aplikacjach. Zestaw narzędzi tworzy bazy danych zawierające streszczone wersje treści i struktury Wikipedii oraz zawiera API w języku Java, które zapewnia do nich dostęp. Artykuły, kategorie i przekierowania Wikipedii są reprezentowane jako klasy i mogą być efektywnie wyszukiwane, przeglądane i iterowane. Zaawansowane funkcje obejmują równoległe przetwarzanie zrzutów Wikipedii, maszynowo uczone miary pokrewieństwa semantycznego i funkcje adnotacji oraz usługi internetowe oparte na XML. Wikipedia Miner ma być platformą do dzielenia się technikami eksploracji danych.