Articles

Un set de instrumente open-source pentru extragerea Wikipedia

Enciclopedia online Wikipedia este o tapiserie vastă, în continuă evoluție, de articole interconectate. Pentru dezvoltatori și cercetători, ea reprezintă o uriașă bază de date multilingvă de concepte și relații semantice, o resursă potențială pentru procesarea limbajului natural și pentru multe alte domenii de cercetare. Această lucrare prezintă setul de instrumente Wikipedia Miner, un sistem software cu sursă deschisă care permite cercetătorilor și dezvoltatorilor să integreze semantica bogată a Wikipedia în propriile aplicații. Setul de instrumente creează baze de date care conțin versiuni rezumate ale conținutului și structurii Wikipedia și include un API Java pentru a oferi acces la acestea. Articolele, categoriile și redirecționările din Wikipedia sunt reprezentate sub formă de clase și pot fi căutate, parcurse și iterate în mod eficient. Printre caracteristicile avansate se numără procesarea paralelizată a descărcărilor Wikipedia, măsuri de relaționare semantică învățate automat și caracteristici de adnotare, precum și servicii web bazate pe XML. Wikipedia Miner se dorește a fi o platformă pentru schimbul de tehnici de extragere a datelor.