Соціально обізнані алгоритми вже готові помогти

Останнім часом дедалі більше голосів закликають уряд жорсткіше регулювати технологічні компанії. При цьому важливо наголосити, що в основі багатьох технологічних проблем, про які ми чуємо ледь не кожного дня, зокрема поширення фейкових новин, порушення приватності, дискримінації та “бульбашок фільтрів”, які підсилюють соціальну ізоляцію та конфронтацію онлайн, лежать хибні алгоритми.

Якщо вже говорити про проблеми, які зводяться до похибок в алгоритмічних розрахунках, то тут недостатньо лише коригувати їхні наслідки. У нас немає можливості сформувати армію онлайн-поліцейських, які перевірятимуть, наприклад, дискримінаційну банерну рекламу. На щастя, існує низка технологічних рішень, які компанії можуть — і мусять — прийняти вже зараз, щоб не чекати жорстких законодавчих обмежень в майбутньому.

Алгоритми для автоматичного опрацювання даних у пресі часто зображають як лиховісні “чорні скриньки”, які приховані від громадськості і натреновані на те, щоб видавати які завгодно результати. Багато хто занепокоєний, що вони узагалі зможуть вийти з-під контролю своїх творців. Утім, на щастя, реальність не така похмура. Останніми роками сотні науковців, що працюють в таких сферах, як машинне навчання та штучний інтелект, працювали над тим, щоб створити те, що ми називаємо “соціально обізнаними” алгоритмами. Чимало найвагоміших помилок алгоритмів добре зрозумілі (принаймні в ретроспективі) й цілком мають алгоритмічне вирішення.

Розгляньмо, наприклад, використання алгоритмів для прийняття споживчих рішень. Якщо банк виявить, що, наприклад, їхній алгоритм частіше безпідставно відмовляє чорним аплікатнам, ніж білим, то він не мусить жертвувати автоматизацією, щоб виправити це. Якщо “стандартний” спосіб налаштування моделі прийняття рішень є дискримінаційним, то існують багато інших способів тренування алгоритмів, що дозволяють усунути чи мінімізувати упередження.

Наприклад, замість того, щоб тренувати алгоритм на зниження загальної кількості помилок, можна піти іншим шляхом і удосконалити його за додаткових умов чесності, щоб він не трактував жодну расову групу гірше за іншу. Це, однак, може збільшити загальний рівень помилок, оскільки система за додаткових умов стане ще складнішою. Якщо ж причиною помилок є нестача даних про представників расових чи інших меншин, то її можна виправити, зібравши додаткові дані, що, однак, потребує залучення коштів та інших ресурсів.

Ці компроміси підкреслюють фундаментальну, але часто болючу істину: підтримка алгоритмами соціальних норм, таких як чесність, приватність, прозорість тощо, як правило, можлива лише за рахунок точності чи “корисності” таких систем (тобто прибутку, який вони приносять власникам). І хоча існує чимало способів усунути упередження із алгоритмів, усі вони неминуче ставитимуть розробників та їхніх корпоративних роботодавців в ситуацію, коли їм доведеться обирати між чесністю та прибутком. Вирішення того, як збалансувати ці компроміси, потребуватиме від компаній та науковців складних, але критично важливих рішень з далекосяжними наслідками для суспільства.

Аналогічним є погляд на приватність. Якщо вас турбує, наприклад, те, що алгоритми здатні оприлюднити суперечливі дані про особу (оскільки методи машинного навчання можуть видати на-гора інформацію, яку використовували для їхнього навчання), то можна скористатися ефективним знаряддям, яке називають диференційною приватністю. Його зміст полягає в тому, щоб додати до обчислень “шум”, який суттєво не впливає на цілі алгоритмічного обчислення, але приховує інформацію про будь-якого конкретного індивіда.

Наприклад, замість того, щоб Бюро перепису населення США публікувало точну кількість резидентів, які живуть за межею бідності в конкретному районі Філадельфії, воно може “сфальсифікувати” цей показник, додавши до нього невелике випадкове число. Ця похибка буде достатньо малою, щоб сформувати доволі точне уявлення про загальний рівень бідності в районі, але при цьому вона гарантуватиме, що ніхто не зможе визначити рівень доходу кожного конкретного домогосподарства. Справді, між точністю та захистом приватності існує певне протиріччя, але етика робить компроміси між ними неминучими.

Приклад з переписом населення не суто гіпотетичний. Усі дані, які будуть оприлюднені після наступного перепису населення у США у 2020 році, передбачатимуть застосування методу диференційної приватності. Компроміс між приватністю і точністю вже викликав чимало нарікань від споживачів, які планують використати ці дані. Це ранній приклад суспільних дискусій, до яких широкому загалу доведеться долучитись вже зовсім скоро.

Соціально обізнані алгоритми вже сьогодні стають реальністю. Ми справді хочемо мати системи, які полегшують прийняття рішень і приносять прибуток. Утім, не можна допустити, щоб це давалось коштом втрати приватності та дискримінації незахищених суспільних груп. Навіть не чекаючи законодавчих регуляцій, вже зараз можливо удосконалити ці системи й зробити їх чеснішими та прозорішими. Це справа технологічних компаній, які мають усі можливості для цього. З іншого боку, законодавці та регулятори також повинні добре вивчити науку, яка лежить в основі алгоритмів. Вимогу, щоб ці системи були чесними і не порушували приватності, дуже легко витлумачити хибно, що, утім, не означає, що вона не повинна бути дороговказом до дій.