Articles

Descrierea cuvintelor

Descrierea cuvintelor

Ideea pentru motorul de descriere a cuvintelor a venit atunci când construiam motorul pentru cuvinte înrudite (este ca un tezaur, dar vă oferă un set mult mai larg de cuvinte înrudite, mai degrabă decât doar sinonime). În timp ce mă jucam cu vectorii de cuvinte și cu API-ul „HasProperty” din conceptnet, m-am distrat puțin încercând să obțin adjectivele care descriu în mod obișnuit un cuvânt. În cele din urmă mi-am dat seama că există o modalitate mult mai bună de a face acest lucru: să analizez cărțile!

Proiectul Gutenberg a fost corpus-ul inițial, dar analizatorul a devenit din ce în ce mai lacom și am ajuns să îl alimentez undeva în jur de 100 de gigaocteți de fișiere text – majoritatea ficțiune, inclusiv multe lucrări contemporane. Analizatorul pur și simplu se uită prin fiecare carte și scoate diversele descrieri ale substantivelor.

Sperăm că este mai mult decât o noutate și că unii oameni chiar o vor găsi utilă pentru scrierile lor și pentru brainstorming, dar un mic lucru interesant de încercat este să compari două substantive care sunt similare, dar diferite într-un mod semnificativ – de exemplu, genul este interesant: „femeie” versus „bărbat” și „băiat” versus „fată”. La o primă analiză rapidă, se pare că autorii de ficțiune sunt de cel puțin 4 ori mai predispuși să descrie femeile (spre deosebire de bărbați) cu termeni legați de frumusețe (în ceea ce privește greutatea, trăsăturile și atractivitatea generală a acestora). De fapt, „frumoasă” este, probabil, cel mai utilizat adjectiv pentru femei în toată literatura mondială, ceea ce este în concordanță cu reprezentarea generală unidimensională a femeilor în multe alte forme media. Dacă cineva dorește să facă cercetări suplimentare în acest sens, anunțați-mă și vă pot oferi mult mai multe date (de exemplu, există aproximativ 25000 de intrări diferite pentru „femeie” – prea multe pentru a le arăta aici).

Albastrul rezultatelor reprezintă frecvența lor relativă. Puteți să treceți deasupra unui element pentru o secundă și ar trebui să apară scorul de frecvență. Sortarea „unicității” este implicită și, datorită algoritmului meu Complicated Algorithm™, le ordonează în funcție de unicitatea adjectivelor pentru substantivul respectiv în raport cu alte substantive (de fapt, este destul de simplu). Așa cum v-ați aștepta, puteți face clic pe butonul „Sort By Usage Frequency” (Sortare după frecvența de utilizare) pentru adjective în funcție de frecvența de utilizare a acestora pentru acel substantiv.

.