En verktygslåda med öppen källkod för att utvinna Wikipedia
Encyklopedin på nätet Wikipedia är en stor, ständigt utvecklande väv av sammanlänkade artiklar. För utvecklare och forskare utgör den en gigantisk flerspråkig databas med begrepp och semantiska relationer, en potentiell resurs för naturlig språkbehandling och många andra forskningsområden. I den här artikeln presenteras verktygslådan Wikipedia Miner, ett programvarusystem med öppen källkod som gör det möjligt för forskare och utvecklare att integrera Wikipedias rika semantik i sina egna tillämpningar. Verktygslådan skapar databaser som innehåller sammanfattade versioner av Wikipedias innehåll och struktur och innehåller ett Java API för att ge tillgång till dem. Wikipedias artiklar, kategorier och omdirigeringar representeras som klasser och kan sökas, bläddras och itereras på ett effektivt sätt. Avancerade funktioner inkluderar parallelliserad behandling av Wikipedia-dumps, maskininlärda semantiska relateringsmått och annoteringsfunktioner samt XML-baserade webbtjänster. Wikipedia Miner är tänkt att vara en plattform för att dela tekniker för datautvinning.