Articles

Um conjunto de ferramentas de código aberto para mineração da Wikipédia

A enciclopédia online Wikipédia é uma vasta tapeçaria em constante evolução de artigos interligados. Para desenvolvedores e pesquisadores ela representa uma gigantesca base de dados multilíngue de conceitos e relações semânticas, um recurso potencial para o processamento de linguagem natural e muitas outras áreas de pesquisa. Este artigo apresenta o Wikipedia Miner toolkit, um sistema de software de código aberto que permite a pesquisadores e desenvolvedores integrar Wikipediaʼs rich semantics em suas próprias aplicações. O kit de ferramentas cria bancos de dados que contêm versões resumidas do conteúdo e estrutura do Wikipediaʼs, e inclui uma API Java para fornecer acesso a eles. Os artigos, categorias e redirecionamentos do Wikipediaʼs são representados como classes, e podem ser pesquisados, navegados e iterados de forma eficiente. Os recursos avançados incluem processamento paralelo de lixeiras da Wikipédia, medidas e recursos de anotação semânticos de aprendizagem de máquina, e serviços web baseados em XML. O Wikipedia Miner destina-se a ser uma plataforma para o compartilhamento de técnicas de mineração de dados.