Articles

Popisující slova

Popisující slova

Nápad na engine pro popisující slova vznikl, když jsem vytvářel engine pro příbuzná slova (je to něco jako tezaurus, ale poskytuje mnohem širší soubor příbuzných slov než jen synonyma). Při hraní si s vektory slov a rozhraním API „HasProperty“ služby conceptnet jsem se trochu pobavil, když jsem se snažil získat přídavná jména, která běžně popisují dané slovo. Nakonec jsem si uvědomil, že na to existuje mnohem lepší způsob: parsovat knihy!“

Počátečním korpusem byl Project Gutenberg, ale parser byl stále nenasytnější a nenasytnější a nakonec jsem ho krmil někde kolem 100 gigabajtů textových souborů – většinou beletrie, včetně mnoha současných děl. Parser prostě prochází každou knihu a vytahuje z ní různé popisy podstatných jmen.

Snad to nebude jen novinka a některým lidem to bude skutečně užitečné pro jejich psaní a brainstorming, ale jedna šikovná drobnost, kterou si lze vyzkoušet, je porovnávat dvě podstatná jména, která jsou si podobná, ale v něčem podstatném se liší – zajímavý je například rod: „žena“ versus „muž“ a „chlapec“ versus „dívka“. Při prvotní rychlé analýze se zdá, že autoři beletrie nejméně 4x častěji popisují ženy (na rozdíl od mužů) výrazy souvisejícími s krásou (týkajícími se jejich váhy, rysů a celkové atraktivity). Ve skutečnosti je „krásná“ pravděpodobně nejpoužívanějším adjektivem pro ženy v celé světové literatuře, což je zcela v souladu s obecným jednorozměrným zobrazováním žen v mnoha jiných mediálních formách. Pokud by se někdo chtěl pustit do dalšího výzkumu této problematiky, dejte mi vědět a já vám mohu poskytnout mnohem více údajů (například pro slovo „žena“ existuje asi 25 000 různých záznamů – je jich příliš mnoho na to, abych je zde uváděl).

Modrá barva výsledků představuje jejich relativní četnost. Na položku můžete na vteřinu najet myší a mělo by se zobrazit skóre četnosti. Řazení podle „jedinečnosti“ je výchozí a díky mému složitému algoritmu™ je řadí podle jedinečnosti přídavných jmen k danému podstatnému jménu vzhledem k ostatním podstatným jménům (je to vlastně docela jednoduché). Jak se dalo očekávat, můžete kliknutím na tlačítko „Seřadit podle četnosti použití“ přídavná jména seřadit podle četnosti jejich použití u daného podstatného jména.