Articles

An open-source toolkit for mining Wikipedia

A Wikipedia online enciklopédia egy hatalmas, folyamatosan fejlődő, egymáshoz kapcsolódó cikkekből álló szövevény. A fejlesztők és kutatók számára a fogalmak és szemantikai kapcsolatok óriási, többnyelvű adatbázisát jelenti, amely a természetes nyelvi feldolgozás és számos más kutatási terület potenciális forrása. Ez a tanulmány bemutatja a Wikipedia Miner eszközkészletet, egy nyílt forráskódú szoftverrendszert, amely lehetővé teszi a kutatók és fejlesztők számára, hogy a Wikipedia gazdag szemantikáját saját alkalmazásaikba integrálják. Az eszközkészlet olyan adatbázisokat hoz létre, amelyek a Wikipediaʼs tartalom és struktúra összegzett változatait tartalmazzák, és tartalmaz egy Java API-t, amely hozzáférést biztosít ezekhez. A Wikipediaʼs cikkek, kategóriák és átirányítások osztályokként vannak reprezentálva, és hatékonyan kereshetők, böngészhetők és iterálhatók. A fejlett funkciók közé tartozik a Wikipédia-dömping párhuzamos feldolgozása, a gépi tanult szemantikai rokonsági mérések és jegyzetelési funkciók, valamint az XML-alapú webszolgáltatások. A Wikipedia Miner célja, hogy az adatbányászati technikák megosztásának platformja legyen.