Un kit de herramientas de código abierto para la minería de Wikipedia
La enciclopedia en línea Wikipedia es un vasto tapiz de artículos interconectados en constante evolución. Para los desarrolladores e investigadores representa una gigantesca base de datos multilingüe de conceptos y relaciones semánticas, un recurso potencial para el procesamiento del lenguaje natural y muchas otras áreas de investigación. Este artículo presenta el kit de herramientas Wikipedia Miner, un sistema de software de código abierto que permite a los investigadores y desarrolladores integrar la rica semántica de Wikipedia en sus propias aplicaciones. El kit de herramientas crea bases de datos que contienen versiones resumidas del contenido y la estructura de Wikipedia, e incluye una API Java para proporcionar acceso a ellas. Los artículos, las categorías y las redirecciones de Wikipedia se representan como clases, y se pueden buscar, navegar e iterar de manera eficiente. Las características avanzadas incluyen el procesamiento en paralelo de los volcados de Wikipedia, medidas de relación semántica aprendidas por la máquina y características de anotación, y servicios web basados en XML. Wikipedia Miner pretende ser una plataforma para compartir técnicas de minería de datos.