An open-source toolkit for mining Wikipedia
L’enciclopedia online Wikipedia è un vasto arazzo di articoli interconnessi, in continua evoluzione. Per sviluppatori e ricercatori rappresenta un gigantesco database multilingue di concetti e relazioni semantiche, una potenziale risorsa per l’elaborazione del linguaggio naturale e molte altre aree di ricerca. Questo articolo introduce il Wikipedia Miner toolkit, un sistema software open-source che permette a ricercatori e sviluppatori di integrare la ricca semantica di Wikipedia nelle loro applicazioni. Il toolkit crea database che contengono versioni riassuntive del contenuto e della struttura di Wikipedia, e include un’API Java per fornire l’accesso ad essi. Gli articoli, le categorie e i reindirizzamenti di Wikipedia sono rappresentati come classi, e possono essere ricercati, sfogliati e iterati in modo efficiente. Le caratteristiche avanzate includono l’elaborazione in parallelo dei dump di Wikipedia, misure di correlazione semantica apprese dalla macchina e caratteristiche di annotazione, e servizi web basati su XML. Wikipedia Miner vuole essere una piattaforma per la condivisione di tecniche di data mining.