Математика літератури

Частота використання слова як гіпербола. Науковці виявили ще одну математичну закономірність у літературних творах: як часто з’являється слово в тексті і в якому співвідношенні перебуває його кількість до частоти вживання інших слів, можна вирахувати за допомогою зовсім простої формули – закону Ципфа. Його вдалося підтвердити на майже половині з 30 тисяч англомовних творів у проекті «Гутенберг».

 

 

 

Частота слів у творі «Еффі Бріст» майже збігається з законом Ципфа 1/n.

 

 

Те, що в літературі можуть приховуватися математичні закономірності, лише нещодавно довело відкриття фрактальних структур у великих творах літератури. Проте в написаних текстах є ще чимало математики. Йдеться зокрема про закон Ципфа. Згідно з цим законом, який 1930 року відкрив американський лінгвіст Джордж Ципф (George Zipf), частоту, з якою певне слово з’являється у тексті, можна визначити з допомогою надиво простої математичної функції (згідно з якою відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину).

 

Правило гласить: розподіл частотності слів відповідає найпростішій формі гіперболи з формулою «1/n». Конкретніше кажучи, найчастіше слово з’являється в тексті рівно вдвічі частіше, ніж друге за частотою, що, в свою чергу, зустрічається в написаному втричі частіше, ніж наступне слово у списку найбільш використовуваних у тексті, і так далі.

 

Для окремих творів, зокрема для роману «Еффі Бріст», написаного Фонтане, цю закономірність вчені підтвердили. Але чи придатне правило Ципфа для всіх літературних творів?

 

Аби відповісти на це запитання, науковці з Автономного університету Барселони дослідили всі англомовні твори в проекті «Гутенберг» (що є громадською ініціативою з оцифрування, архівування і поширення культурних творів) на предмет відповідності трьом варіантам математичного закону Ципфа. Вони проаналізували 30 тисяч творів – у такій кількості подібні дослідження ніколи раніше не здійснювали.


Результат: якщо зважати на всі слова, то 40 % літературних творів підпадають під найпростіше формулювання правила Ципфа. Коли ж науковці відкинули всі слова, що присутні в тексті по одному разові, цей результат покращився до 55%

 

«Цілком несподівано виявилося, що частоту слів у такій великій кількості творів можна зобразити простою формулою, що має лише одну змінну, – констатує керівник дослідження Альваро Корал (Alvaro Corral). – Незважаючи на те, що література як одна з форм вираження ґрунтується на принципі творчої свободи, ні Вільям Шекспір, ні Чарльз Діккенс не змогли втекти від тиранії закону Ципфа».

 

Науковці наголошують: їхньою метою не було підлаштувати різні варіанти закону Ципфа до такої великої кількості текстів – радше, навпаки. Вони свідомо вибирали строгі обмеження. «Нас здивувало, як добре найпростіший розподіл Ципфа функціонує на такій великій кількості текстів», – наголошують науковці.

 

Інші два, дещо складніші, варіанти закону підходять для меншої кількості текстів. На думку вчених, це можна пояснити власне англійською мовою. З огляду на те, що в ній менше слів володіють вираженими формами відмінювання, відповідно й слів з низькою частотою є менше, ніж в інших мовах, припускають науковці. Чи пасують ці формули більше іншим мовам, прояснять наступні дослідження.


Закон Ципфа не обмежений лише літературою, зовсім навпаки. Він приховується у різноманітних сферах: звуки в музичному творі, відвідувачі веб-сайту чи працівники фірми. Навіть у частоті білків у клітинах нашого тіла простежується ця математична закономірність.

 

«Сама спроба пояснити закон Ципфа вже багато означає, – вважає Ізабель Морено-Санчес (Isabel Moreno-Sánchez) та її колеги. – Але дотепер учені не можуть зійтися на жодному з запропонованих поясненень».

 

Завдяки можливості аналізувати велику кількість даних, на думку дослідників, з’явився шанс зробити наступний крок у цій сфері.

 

 

Noch mehr Mathematik in Literatur entdeckt 

Scinexx.de, 24/02/2016

Зреферувала Соломія Кривенко

28.02.2016