Articles

Un kit de herramientas de código abierto para la minería de Wikipedia

La enciclopedia en línea Wikipedia es un vasto tapiz de artículos interconectados en constante evolución. Para los desarrolladores e investigadores representa una gigantesca base de datos multilingüe de conceptos y relaciones semánticas, un recurso potencial para el procesamiento del lenguaje natural y muchas otras áreas de investigación. Este artículo presenta el kit de herramientas Wikipedia Miner, un sistema de software de código abierto que permite a los investigadores y desarrolladores integrar la rica semántica de Wikipedia en sus propias aplicaciones. El kit de herramientas crea bases de datos que contienen versiones resumidas del contenido y la estructura de Wikipedia, e incluye una API Java para proporcionar acceso a ellas. Los artículos, las categorías y las redirecciones de Wikipedia se representan como clases, y se pueden buscar, navegar e iterar de manera eficiente. Las características avanzadas incluyen el procesamiento en paralelo de los volcados de Wikipedia, medidas de relación semántica aprendidas por la máquina y características de anotación, y servicios web basados en XML. Wikipedia Miner pretende ser una plataforma para compartir técnicas de minería de datos.