Articles

Opisywanie słów

Opisywanie słów

Pomysł na silnik opisujący słowa pojawił się, gdy budowałem silnik słów pokrewnych (jest to coś jak tezaurus, ale daje znacznie szerszy zestaw słów pokrewnych, a nie tylko synonimy). Podczas zabawy z wektorami słów i API „HasProperty” w conceptnecie, miałem trochę zabawy próbując uzyskać przymiotniki, które powszechnie opisują dane słowo. W końcu zdałem sobie sprawę, że jest na to o wiele lepszy sposób: parsowanie książek!

Project Gutenberg był początkowym korpusem, ale parser stawał się coraz bardziej chciwy i skończyło się na tym, że podałem mu około 100 gigabajtów plików tekstowych – głównie beletrystyki, w tym wiele współczesnych dzieł. Parser po prostu przegląda każdą książkę i wyciąga różne opisy rzeczowników.

Mam nadzieję, że jest to coś więcej niż tylko nowość i niektórzy ludzie faktycznie znajdą to przydatne dla ich pisania i burzy mózgów, ale jedną zgrabną małą rzeczą do wypróbowania jest porównanie dwóch rzeczowników, które są podobne, ale różnią się w jakiś znaczący sposób – na przykład płeć jest interesująca: „kobieta” versus „mężczyzna” i „chłopiec” versus „dziewczynka”. Z pierwszej szybkiej analizy wynika, że autorzy beletrystyki przynajmniej 4x częściej opisują kobiety (w przeciwieństwie do mężczyzn) za pomocą określeń związanych z urodą (dotyczących wagi, rysów i ogólnej atrakcyjności). W rzeczywistości, „piękna” jest prawdopodobnie najczęściej używanym przymiotnikiem w odniesieniu do kobiet w całej literaturze światowej, co jest całkiem zgodne z ogólną jednowymiarową reprezentacją kobiet w wielu innych formach medialnych. Jeśli ktoś chce zrobić dalsze badania na ten temat, daj mi znać, a ja mogę dać ci dużo więcej danych (na przykład, istnieje około 25000 różnych wpisów dla „kobiety” – zbyt wiele, aby pokazać tutaj).

Niebieski kolor wyników reprezentuje ich względną częstotliwość. Możesz najechać na element na sekundę i powinien pojawić się wynik częstotliwości. Sortowanie „unikalność” jest domyślne, a dzięki mojemu Skomplikowanemu Algorytmowi™, porządkuje je według unikalności przymiotników dla danego rzeczownika w stosunku do innych rzeczowników (w rzeczywistości jest to całkiem proste). Jak można się spodziewać, możesz kliknąć przycisk „Sortuj według częstotliwości użycia”, aby uporządkować przymiotniki według ich częstotliwości użycia dla danego rzeczownika.