Сексизм і расизм штучного інтелекту

Коли Google Translate перекладає тексти з іспанської англійською, фрази, в яких йдеться про жінок, він чомусь передає як “він сказав” чи “він зробив”. Програма на камері Nikon, яка попереджає людей, що можуть кліпати очима, коли їх знімають, ідентифікує азіатів як таких, що постійно кліпають. А популярний алгоритм Word embedding, який використовують для аналізу природних мов, чомусь вважає, що європейські й американські імена “гарні”, а афроамериканські –​ “негарні”.

 


Лише ліве зображення штучний інтелект ідентифікує як "наречену" чи "весілля". Праве для нього "костюмований перформанс".

 

Це лише кілька з багатьох прикладів того, як штучний інтелект систематично дискримінує різні групи людей.

 

Упередженість важко назвати специфічною рисою штучного інтелекту. Втім, дослідники вважають, що розширення сфери його застосування робить її особливо актуальною. Те, що штучний інтелект тепер усюди, вимагає системних рішень. Нижче ми окреслили кілька можливих стратегій.

 

І в академічному середовищі, і в індустрії комп'ютерні науковці прагнуть отримувати славу (від публікацій до повідомлень в медіа) за тренування дедалі складніших алгоритмів. Натомість значно менше уваги приділяють тому, як дані для цих тренувань збирають, опрацьовують та організовують.

 

А саме тренувальні дані і є головним чинником упереджень штучного інтелекту. Більшість завдань для машинного навчання тренуються на великих, анотованих базах даних. Наприклад, нейромережі, що їх використовують для класифікації зображень, тренуються на ImageNet – наборі з понад 14 мільйонів фотографій. А алгоритми, які працюють з природними мовами, тренуються на корпусах мов з мільярдів слів. Ці дані, як правило, отримують з відкритих джерел в Інтернеті, зокрема з таких ресурсів, як Google Images, Google News чи “Вікіпедія”. Зібрану інформацію позначають спеціальними анотаціями — часто це роблять студенти або через краудсорсингові платформи, такі як Amazon Mechanical Turk.

 

Такі методи мимоволі генерують дані, які містять расові, гендерні чи етнічні стереотипи.

 

Наприклад, деякі групи людей є надрепрезентовані, а інші — недорепрезентовані. Скажімо, понад 45% зображень на ImageNet походять зі Сполучених Штатів, де проживає лише 4% світового населення. Тим часом в Індії і Китаї, де разом живе 36% усього населення земної кулі, були зроблені тільки 3% фотографій. Як наслідок, алгоритми, що тренуються на цих зображеннях, розпізнають фотографію традиційної американської нареченої в білій сукні як “жінку”, “наречену”, “сукню” та “весілля”, а фотографію з нареченою з Північної Індії програма ідентифікує як “мистецтво перформансу” та “костюм”.

 

В медицині алгоритми машинного навчання особливо вразливі до упереджених баз даних, адже продукування та розпізнавання медичної інформації коштує чи не найдорожче. Минулого року дослідники використали глибинне навчання, щоб ідентифікувати рак шкіри за допомогою фотографій. Алгоритми тренували на наборі із 129 450 зображень, 60% яких були взяті із Google Image. Однак темношкірі люди були присутні менш ніж на 5% цих зображень. Отже, робота алгоритму може бути дуже різною серед різних людських популяцій.

 

Інше джерело упередження можна простежити в самих алгоритмах.

 

Типова програма машинного навчання намагатиметься максимізувати загальну точність передбачення для тренувальних даних. Тож, якщо специфічна група індивідів зустрічається в тренувальних даних частіше, то програма самостійно підлаштовується під цю групу, щоб збільшити загальну точність.

 

Через петлі зворотнього зв'язку алгоритми з помилками лише помножують стереотипи. Скажімо, Google Translate, який надає перевагу займенникам чоловічого року, кожного разу збільшує відсоткове співвідношення маскулінізмів в інтернеті, перекладаючи “він сказав” замість “вона сказала”. Це зумовлене співвідношенням чоловічих займенників до жіночих в англійській мові на рівні 2 до 1. Характерно, що із 1960-х це співвідношення знизилось із 4 до 1 завдяки масштабним соціальним трансформаціям.

 

Зміщення даних часто віддзеркалюють глибокі соціальні та владні дисбаланси. Вікіпедія, наприклад, виглядає як багате та різноманітне джерело інформації. Але лише 18% біографічних статей у ній про жінок. А статті про жінок містять більше інформації про сім'ю чи романтичних партнерів та більше посилаються на статті про чоловіків, ніж навпаки, що робить чоловіків більш видимими для пошукових систем.

 

Отже, потрібно звернути набагато більше уваги на те, як саме формуються бази даних, на яких тренується штучний інтелект, а також здійснити кроки, щоб ці бази були різноманітними й не дискримінували жодної групи за статтю чи кольором шкіри.

 

Деякі дослідники вже почали працювати над цим. Наприклад, комп'ютерні науковці недавно виявили, що штучний інтелект, який розпізнає обличчя, припускається набагато більше помилок, коли йому трапляються чорні жінки, ніж білі. Співвідношення помилок становило аж 35% до 0,8%. Щоб вирішити цю проблему, дослідники створили нову базу даних із 1270 людей і змусили програму “перевчитись”.

 

Всі тренувальні дані обов'язково повинні містити інформацію про те, за якими критеріями їх зібрали і позначили. Якщо ці дані стосуються людей, то неодмінною є інформація про географію, стать, етнічну приналежність й інші суттєві демографічні характеристики. Якщо позначення відбувається через краудсорсинг, тоді потрібні базові дані про учасників краудсорсингу разом з точними інструкціями, які їм надали. Деякі журнали вже вимагають ці дані від авторів, які хочуть опублікувати свої статті. Наприклад, Nature вже змушує авторів завантажувати мікромасиви даних на репозиторій з відкритим доступом Gene Expression Omnibus. Власники баз даних, таких як OpenML чи Kaggle, повинні робити те саме.

 

Зрештою, ІТ-спеціалісти повинні прагнути до того, щоб їхні алгоритми були стійкіші до людських упереджень. Для цього можна використати різні підходи. Один з них полягає в тому, щоб закодовувати ці зміщенняі “підштовхувати” програми йти від протилежного. Інший — це зміна самого алгоритму у такий спосіб, щоб він менше залежав від чутливих параметрів, зокрема статі, етнічності, раси чи рівня доходу, а також будь-якої інформації, яка корелюється з цими характеристиками.

 

Такі підходи є дуже перспективними, але їх ще потрібно протестувати в реальному світі. Потрібно також, щоб розробники алгоритму чітко собі усвідомили, яких саме упереджень вони хочуть уникати.

 

Поки програмісти разом з фахівцями з етики та соціальних наук намагаються покращити об'єктивність штучного інтелекту, ми повинні замислитись над декількома ключовими питаннями. Дані, які використовує штучний інтелект, повинні відображати світ таким, яким він є, чи таким, яким ми б хотіли, щоб він був? Якщо штучні алгоритми використовують для оцінки кандидата на роботу, то що пріоритетніше: його таланти чи, можливо, ймовірність того, що він добре працюватиме в колективі? Хто повинен вирішувати, якому з цих аспектів слід надавати першочергову перевагу?

 

Сьогодні вже існують ініціативи, які вивчають ці питання. Наприклад, в Стенфордському університеті в Каліфорнії діє ініціатива “Штучний інтелект з людським обличчям” (Human-Centered AI). Важливо, щоб студенти вивчали ці проблеми ще у своїх аудиторіях. Соціальні проблеми штучного інтелекту повинні стати такою ж інтегральною частиною освіти про нього, як і те, як його алгоритми працюють.

 

Цифрові пристрої, програми та процеси визначають наше щоденне життя, поведінку та культуру. Штучний інтелект трансформує економіку та суспільство, змінює те, як ми спілкуємось, працюємо й відпочиваємо, породжує нові форми політики й урядування. Наші суспільства дуже довго терпіли нерівність. Штучний інтелект не повинен її продовжувати чи навіть поглиблювати.

 


James Zou, Londa Schiebinger
AI can be sexist and racist — it’s time to make it fair
Nature, 18.07.2018
Зреферував Є. Л. 

 

 

21.07.2018