Алгоритми проти мови нетерпимості

Фахівці у галузі бізнес-інформатики розробили програму, що автоматично розпізнає та реєструє вербальні атаки в соціальних мережах. Особливість: алгоритм ідентифікує не лише потенційно шкідливий контент, а й те, якій групі населення він може нашкодити. В майбутньому така програма зможе підтримувати модераторів, які стежать за дотриманням мережевого етикету в соціальних мережах.

Зображення: cafreitas/ thinkstock

Щодня на сторінках Facebook, Twitter і Кo з'являються мільйони повідомлень і коментарів. Декотрі з них мають одну мету: образити інших людей, їх дискредитувати та проти них нацькувати інших.

Кілька років тому вербальним атакам в Інтернеті піддавалися передусім школярі та вчителі. Сьогодні Інтернет-користувачі невдоволені загалом національними групами, політиками та журналістами.

Як і при знущанні в реальному світі, повідомлення в кіберпросторі можуть сильно разити. «Крім того, коментатори часто закликають до насильства», — розповідає Уве Бретшнайдер (Uwe Bretschneider) з Галле-Віттенберзького університету імені Мартіна Лютера. З огляду на це оператори сайтів розробили базові правила респектабельного спілкування, так званий мережевий етикет. Користувачів, які його порушують, блокують.

Дотепер модератори змушені вручну перевіряти, чи певні користувачі не проявляють нетерпимості в своїх дописах, — процедура, що потребує багато часу. Завдяки Бретшнайдерові та його колеґам це може скоро змінитися, бо бізнес-інформатики розробили комп'ютерну програму, що здатна взяти на себе це завдання.

«Програма аналізує коментарі й вишуковує слова (групи слів) з певної бази даних», — пояснив Бретшнайдер. Це можуть бути, наприклад, лайливі слова або заклики до насильства. Базу даних можна коригувати в будь-який спосіб. Якщо повідомлення визнається мовою нетерпимості, програма його або автоматично видаляє, або пропонує проконтролювати модераторові.

Загалом беручи, це не нове. Інші науковці розробили подібні методи, як вишуковувати у текстах певні терміни. «Щодо мови нетерпимості дуже важливо знати, проти кого скероване певне висловлювання», — каже науковець. Враховуючи це, він доповнив свій алгоритм додатковою опцією. Він аналізує коментарі у тексті дискусії на профілях у Facebook і визначає адресатів висловлювання. Особливо часто вони спрямовані проти біженців, політиків і медій.

Користь такого алгоритму залежить від того, наскільки добре і як точно він визначає мову нетерпимості. Це й перевірив науковець завдяки додатковому пакетові даних: він зібрав повідомлення зі служби передання коротких повідомлень Twitter, дописи з форумів в Інтернеті та коментарі з відкритих Facebook-сторінок.

Ці дані він проаналізував вручну, щоб мати матеріал для порівняння результатів роботи свого програмного забезпечення. Врешті Бретшнайдер дав змогу програмі проаналізувати ті ж таки дані. Результат: 70 % визнаних системою збігів були коректними, близько 40 % коментарів залишилися нерозпізнаними. На перший погляд, це може засмучувати, але суттєво скорочує час, витрачений модераторами на здійснення контролю.

Бретшнайдер наголошує: вони не розробляли алгоритми цензури або моніторинґу: «Не йдеться про те, щоб порушувати право людини на вільне висловлення своєї думки і щоб забороняти певні погляди». Програма перевіряє лише спосіб, у який ці погляди висловлені. З рештою демократія мала би впоратися.

Algorithmus gegen Hate Speech

Martin-Luther-Universität Halle-Wittenberg, 07/02/2017

Зреферувала Соломія Кривенко

11.02.2017