Articles

Descrevendo Palavras

Descrevendo Palavras

A idéia do motor de Descrevendo Palavras veio quando eu estava construindo o motor para Palavras Relacionadas (é como um thesaurus, mas lhe dá um conjunto muito mais amplo de palavras relacionadas, ao invés de apenas sinônimos). Enquanto brincava com vetores de palavras e a API “HasProperty” da conceptnet, eu me divertia um pouco tentando obter os adjetivos que comumente descrevem uma palavra. Eventualmente percebi que há uma maneira muito melhor de fazer isto: analisar livros!

Project Gutenberg foi o corpus inicial, mas o analisador ficou cada vez mais ganancioso e eu acabei por alimentá-lo com cerca de 100 gigabytes de ficheiros de texto – na sua maioria ficção, incluindo muitas obras contemporâneas. O analisador simplesmente olha para cada livro e retira as várias descrições dos substantivos.

E esperamos que seja mais do que apenas uma novidade e algumas pessoas vão achar isso útil para a sua escrita e brainstorming, mas uma coisinha limpa a tentar é comparar dois substantivos que são semelhantes, mas diferentes de alguma forma significativa – por exemplo, o género é interessante: “mulher” versus “homem” e “rapaz” versus “rapariga”. Numa análise inital rápida parece que os autores de ficção têm pelo menos 4x mais probabilidade de descrever as mulheres (em oposição aos homens) com termos relacionados com a beleza (em relação ao seu peso, características e atractividade geral). De fato, “belo” é possivelmente o adjetivo mais usado para as mulheres em toda a literatura mundial, o que está bastante de acordo com a representação unidimensional geral das mulheres em muitas outras formas de mídia. Se alguém quiser fazer mais pesquisas sobre isso, me avise e eu posso dar muito mais dados (por exemplo, há cerca de 25000 entradas diferentes para “mulher” – demasiadas para mostrar aqui).

O azul dos resultados representa sua freqüência relativa. Você pode pairar sobre um item por um segundo e a pontuação da freqüência deve aparecer. A ordenação “uniqueness” é padrão, e graças ao meu Complicated Algorithm™, ele ordena-os pela singularidade dos adjetivos daquele substantivo em particular em relação a outros substantivos (na verdade é bem simples). Como você esperaria, você pode clicar no botão “Ordenar por frequência de uso” para os adjetivos por sua frequência de uso para aquele substantivo.