Articles

Une boîte à outils open-source pour l’exploration de Wikipédia

L’encyclopédie en ligne Wikipédia est une vaste tapisserie d’articles interconnectés en constante évolution. Pour les développeurs et les chercheurs, elle représente une base de données multilingue géante de concepts et de relations sémantiques, une ressource potentielle pour le traitement du langage naturel et de nombreux autres domaines de recherche. Cet article présente la boîte à outils Wikipedia Miner, un système logiciel libre qui permet aux chercheurs et aux développeurs d’intégrer la riche sémantique de Wikipédia dans leurs propres applications. La boîte à outils crée des bases de données qui contiennent des versions résumées du contenu et de la structure de Wikipédia, et inclut une API Java pour y accéder. Les articles, catégories et redirections de Wikipédia sont représentés sous forme de classes et peuvent être recherchés, parcourus et parcourus de manière efficace. Les fonctionnalités avancées incluent le traitement parallélisé des vidages de Wikipedia, des mesures de parenté sémantique apprises par la machine et des fonctionnalités d’annotation, ainsi que des services web basés sur XML. Wikipedia Miner est destiné à être une plate-forme pour le partage des techniques d’exploration de données.