Ein Open-Source-Toolkit für die Auswertung von Wikipedia
Die Online-Enzyklopädie Wikipedia ist ein riesiges, sich ständig weiterentwickelndes Geflecht aus miteinander verknüpften Artikeln. Für Entwickler und Forscher stellt sie eine riesige mehrsprachige Datenbank von Konzepten und semantischen Beziehungen dar, eine potenzielle Ressource für die Verarbeitung natürlicher Sprache und viele andere Forschungsbereiche. In diesem Beitrag wird das Toolkit Wikipedia Miner vorgestellt, ein Open-Source-Software-System, das es Forschern und Entwicklern ermöglicht, die reichhaltige Semantik von Wikipedia in ihre eigenen Anwendungen zu integrieren. Das Toolkit erstellt Datenbanken, die zusammengefasste Versionen des Inhalts und der Struktur von Wikipedia enthalten, und enthält eine Java-API, die den Zugriff auf diese Datenbanken ermöglicht. Wikipedia-Artikel, -Kategorien und -Weiterleitungen werden als Klassen dargestellt und können effizient durchsucht, durchgeblättert und iteriert werden. Zu den erweiterten Funktionen gehören die parallele Verarbeitung von Wikipedia-Dumps, maschinell erlernte semantische Verwandtschaftsmaße und Annotationsfunktionen sowie XML-basierte Webdienste. Wikipedia Miner ist als Plattform für den Austausch von Data-Mining-Techniken gedacht.