Articles

An open-source toolkit for mining Wikipedia

De online encyclopedie Wikipedia is een enorm, zich voortdurend ontwikkelend tapijt van onderling verbonden artikelen. Voor ontwikkelaars en onderzoekers is het een gigantische meertalige database van concepten en semantische relaties, een potentiële bron voor natuurlijke taalverwerking en vele andere onderzoeksgebieden. Dit artikel introduceert de Wikipedia Miner toolkit, een open-source softwaresysteem dat onderzoekers en ontwikkelaars in staat stelt om Wikipedia’s rijke semantiek te integreren in hun eigen toepassingen. De toolkit creëert databases die samengevatte versies bevatten van Wikipediaʼs inhoud en structuur, en omvat een Java API om toegang te bieden tot hen. Wikipediaʼs artikelen, categorieën en verwijzingen worden voorgesteld als klassen, en kunnen efficiënt doorzocht, doorbladerd en herbekeken worden. Geavanceerde functies zijn onder andere parallelle verwerking van Wikipedia dumps, machine-geleerde semantische verwantschap maatregelen en annotatie functies, en XML-gebaseerde web services. Wikipedia Miner is bedoeld als platform voor het delen van dataminingtechnieken.