Articles

An open-source toolkit for mining Wikipedia

Internetová encyklopedie Wikipedia je rozsáhlá, neustále se vyvíjející tapiserie vzájemně propojených článků. Pro vývojáře a výzkumníky představuje obří vícejazyčnou databázi pojmů a sémantických vztahů, potenciální zdroj pro zpracování přirozeného jazyka a mnoho dalších oblastí výzkumu. Tento článek představuje sadu nástrojů Wikipedia Miner, softwarový systém s otevřeným zdrojovým kódem, který umožňuje výzkumníkům a vývojářům integrovat bohatou sémantiku Wikipedie do vlastních aplikací. Sada nástrojů vytváří databáze, které obsahují shrnuté verze obsahu a struktury Wikipedie, a obsahuje rozhraní Java API, které k nim poskytuje přístup. Články, kategorie a přesměrování Wikipedie jsou reprezentovány jako třídy a lze je efektivně prohledávat, procházet a iterovat. Mezi pokročilé funkce patří paralelizované zpracování výpisů z Wikipedie, strojově naučené míry sémantické příbuznosti a anotační funkce a webové služby založené na XML. Wikipedia Miner má být platformou pro sdílení technik dolování dat

.