Штучний інтелект не розумніший за трирічну дитину

Нейронна мережа вчиться людських мов, імітуючи те, як їх вчать самі люди. Інтерлінґва — це мова, на якій думає комп'ютер. Найчастіші вирази, котрі перекладає Google Translate — це "як ся маєш"? і "я тебе кохаю". Бо найчастіше через інтернет люди намагаються висловити кохання.

 

 

— Ви керує проектом, що охоплює перекладом майже всі мови світу. Чи при цій оказії щось Вам відкрилося про людську природу?

 

— Так. І навіть радо цим поділюсь. Найчастіше перекладають вирази "як ся маєш"? і "я тебе кохаю." Якщо глянути на те, про що розмовляють між собою люди на незнаних ними мовах, то найчастіше намагаються зізнатися в коханні.

 

— Ви мені повертаєте віру в людство. Точно кохання, а не ненависть?

 

— Точно, і це незалежно від того, як ми рахуємо. Для кожної мови світу вираз "я тебе кохаю" буде в першій трійці. Далі, якщо візьмемо першу сотню, то побачимо романтичні фрази чи, наприклад "твої очі прекрасні ".

 

— А чи існують мови, в яких нема аналогів таким засадничим словам, як кохання чи ненависть?

 

— Мені про це нічого не відомо. А якщо так, то мабуть, нема, бо відсутність слова "кохання" ми напевно зауважили б. Ми обслуговуємо 103 мови, якими послуговується 99% населення інтернету. Припускаю, що якщо взагалі існує якась мова, в якій немає слова "кохання", то нею розмовляє певна ізольована спільнота, котра не користується інтернетом.

 

Щодо людської природи, то недавно я читав книжку Ювала Харарі "Homo sapiens. Коротка історія людства". Її теза здається мені переконливою. Мова не є чимось виключно людським — шимпанзе також її мають. Але тільки люди використовують настільки розгорнуту мову, що нею можна обговорювати питання так абстрактні, як релігія.

 

Отож якщо можна розмовляти на такі теми, то можна розмовляти про все. Тому тільки люди здатні кооперуватися у великому масштабі. Це нас відрізняє від інших видів — ми вміємо співпрацювати у нескінченно складних проектах. Але ця думка не моя, сам я не чуюся тут компетентним.

 

— Як це, Ви ж маєте доступ до того, про що розмовляють 99% населення! Ви знаєте про нас стільки ж, як сам Господь Бог!

 

— Ха! На підставі статистики нашої системи я можу повторити те, що казав на початку. Люди найчастіше намагаються сказати одне одному щось приємне. За цією статистикою я маю в цілому добре враження про людство.

 

— Мови часто створюють на замовлення політиків — відмінності між урду й хінді чи чеською та словацькою часто штучно вигадані, щоби підкреслити політичну незалежність народу. Чи Ви зустрічаєтеся з політичним тиском, щоби додати або вилучити якусь мову з сервісу?

 

— Постійно, але ми цим не займаємось. Чи є якась мова в нашому сервісі, залежить від двох речей. По-перше, чи її включення в сервіс взагалі є технічно можливим — інколи ми просто маємо для цього дуже мало даних; а по-друге, чи на цю послугу є замовлення.

 

— А чи не вдалося Вам ненароком довести, що якісь мови є більш подібні між собою, ніж цього хотіли політики?

 

— Взагалі всі мови між собою трохи подібні. Якщо ми згодуємо системі дані двох цілком не пов'язаних між собою мов — інші континенти, інші культури, нуль спільної історії — то побічним наслідком буде також і поліпшення якості перекладу на ще інші мови. Інколи ці зв'язки дивують. Наприклад, ми побачили стрибкоподібне зростання якості турецького перекладу — коли скормили системі нові дані про китайську, японську і корейську.

 

— Це мені нагадує гіпотезу Хомського про первинну універсальну граматику...

 

— Я не є лінгвістом, у нашому колективі немає жодного лінгвіста. Ми беремо на роботу переважно інженерів і науковців, які спеціалізуються на статистиці та штучному інтелекті.

 

— Як можна займатися мовою без участі лінгвістів?

 

— Щоби відповісти, мушу пояснити Вам історію машинного перекладу. Ми поділяємо її на три покоління. Першим був переклад на підставі правил ("rule based"). Його почали розвивати в США ще за часів холодної війни, щоби швидко перекладати на англійську російські чи китайські документи. Тоді справді лінгвісти були необхідними. Готували корпус знань про дану мову, тобто словник і загальні принципи граматики, а програмісти це все перекладали на комп'ютерну програму.

 

Друге покоління, значною мірою започатковане Ґуґлем, базується на статистичному аналізі. Ми переглядаємо інтернет у пошуках однакових текстів на різних мовах — наприклад, дивимося, як перекладають документи ООН, і зауважуємо статистичні закономірності. При такому підході найкращим перекладом вважається той, який має найбільші статистичні шанси бути влучним.

 

Проблема в тому, що мови драматично відрізняються між собою з точки зору доступності матеріалів в інтернеті. Найбільше буде, очевидно, матеріалів англійською, незле є також з іспанською чи португальською, а навіть японською. Драма починається з такими мовами, як арабська, пенджабська чи бенгальська. Ними розмовляють мільйони людей, але в інтернеті бракує матеріалів, тому якість перекладів є низькою.

 

Вадою перекладів другого покоління є необхідність розбивати речення на фраґменти. Найбільший фраґмент, який ця система може аналізувати, — це п'ять слів разом. Цього часто замало навіть на одне речення! А прецінь одне слово може цілковито змінити значення інших слів в ньому.

 

І, врешті, третє покоління використовує нейронні мережі і машинне навчання. Нейронна мережа вчить людські мови, імітуючи те, як їх вчать самі люди. Будує собі внутрішню модель даної мови й аналізує речення як цілість. Тут знову ми маємо ту проблему, що наступне речення може змінити вже контекст абзацу, але і так поступ є величезним.

 

— Я читав, що цю модель мови ви описуєте як інтерліґва — немов це мова, на якій думає комп'ютер. Це як середньовічні пошуки мови, якою Бог розмовляє з ангелами...

 

— Ха. Загалом, ми вживаємо поняття "interlingua", але завжди в лапках. Щось таке ми мусили застосувати з трьох причин. Першою є те, що ми називаємо "transfer learning"(трансфертне навчання). Ми стараємося використовувати подібність між мовами. Подібно вчаться люди: якщо ти оволодів однією слов'янською мовою, то з наступними вже буде легше. Таким чином частково ми можемо справлятися з проблемою недостачі матеріалів і, наприклад, вдосконалення перекладів на мові хінді переносити на поліпшення якості перекладів на урду.

 

Але перш за все нам йшлося про іншу причину, суто технічну. Поки ми стосуємо традиційні методи, то додавання 104-ої мови означає збільшення завантаження наших серверів у 103 рази.

 

— Це зростає експоненційно?

 

— Так. Звідси пошук універсальної моделі, за якою ми перекладаємо вже не безпосередньо з англійської на японську, тільки спочатку ми зводимо досліджуваний текст до певної моделі, а потім перекладаємо з цієї моделі на японську, китайську чи будь-яку іншу мову, яку маємо в системі.

 

— Універсальна модель людської мови — це звучить як поза межами нинішніх знань...

 

— Ми самі були вражені, як нам легко пішло. Запланували ми собі це завдання на три роки. Вступні розмови відбулися в 2015 р., серйозно ми почали працювати на початку 2016-го — і після дев'яти місяців мали прототип, який діяв шокуюче добре. Не ідеально, але людські переклади також не ідеальні. Якщо ми візьмемо п'ять найвидатніших перекладачів, виявиться, що той самий текст вони перекладуть по-різному, а до того ж будуть один одному витикати помилки.

 

Отже, ми вже знали, що це є належний шлях досягнути ті згадувані вже три переваги. Але я ще раз попереджаю, що не треба уявляти собі "інтерлінґву" як окрему мову. Людина не може її вивчити. Уявімо собі це просто як нове вміння машин. Річ у тім, що якщо ми навчимо машину перекладати з англійської на хінді і з хінді на пенджабську, то вони на цій основі самі вмітимуть перекладати з англійської на пенджабську.

 

— Чи можете Ви мені пояснити як дилетанту, наскільки влучні порівняння такого штучного інтелекту з людським мозком? Чи "нейронні мережі" дійсно нагадують наш мозок?

 

— До деякої міри так. Їх архітектура імітує певну рису нашого мозку. В ньому нема одного центрального процесора, лиш мільярди вузлів, котрі інформацію обробляють паралельно. Інженери з Ґуґла розвинули спеціальний вид комп'ютера, що називається TPU — Tensor Processing Unit (модуль тензорної обробки), який функціонує подібно.

 

— Не боїтеся цього?

 

— Нема чого. Я якраз в особливій ситуації, бо з однієї сторони спостерігаю, як вчиться нейронна мережа, а з іншої — бачу розвиток свого трирічного сина. Ми виховуємо його двомовно — по-англійськи і по-російськи. Він часто робить помилки. Але вистачить йому один раз пояснити, де він помилився — і вже більше він цього не зробить.

 

З штучним інтелектом так не є. Він вчиться неймовірно повільно і функціонує теж повільно. Наш перший прототип був у сто разів повільніший від того, що маємо нині — але й надалі швидкодія є нашою основною проблемою. Моя робота значно полегшилася б, якби штучний інтелект був так само швидким, як трирічна дитина!

 

Людський мозок має перевагу над штучним інтелектом в одній сфері. Людина, навіть трирічна, відразу охоплює цілу картину, а комп'ютер, навіть якщо це найсучасніша нейронна мережа, мусить його розібрати на фраґменти.

 

Найлегше це пояснити на прикладі з медицини. Радіолог, дивлячись на знимку, відразу зауважить аномалію. Машина так не вміє — вона мусить аналізувати знимку кусок за куском. Це, зрештою, інколи призводить до того, що людина помиляється, бо раз на кількадесят випадків пропустить якусь деталь. Машина не проґавить деталей, але натомість не завжди бачить загальну картину.

 

— Однак застереження щодо штучного інтелекту лунають від таких поважних людей, як Білл Ґейтс, Стівен Гокінґ...

 

— Розумію, звідки беруться ці тривоги. Нейронні мережі діють як чорний ящик. Деколи ми знаємо, чому система щось зробила, а інколи не маємо про це зеленого поняття. Але з точки зору когось, хто працює з цими чорними ящиками, вони не виглядають як потужна сила, якої треба остерігатися, а зовсім навпаки — справляють враження машин, не розумніших за трирічну дитину. Ну, і так само, як традиційну комп'ютерну систему в разі аварії можна перезавантажити, так і нейронну мережу можна вичистити і почати навчання заново.

 

Оскільки Ви кажете, що ваша система аналізує речення як цілість, з повним контекстом, то це мало би означати, що вона розуміє емоції. Знає, коли хтось хоче бути зухвалим чи іронічним. Це крок до машини, яка може вдавати людину...

 

— Я тільки кажу, що нинішня система розуміє контекст краще за попередню. Поки що ми боремося з набагато простішими проблемами. Ось Вам приклад: в іспанській мові стать суб'єкта здебільшого окреслена тільки в одному реченні, а в інших — вже ні. Як з ними бути? Оскільки комп'ютер керується статистикою, то ставить собі питання: яка ймовірність того, що йдеться про чоловіка? І якщо йому вийде, що з 51% ймовірності йдеться про чоловіка, він так і перекладає. Це дуже раціональне вирішення з точки зору комп'ютера, але, очевидно, в 49% випадків призведе до помилки.

 

Чи штучний інтелект зможе переконливо вдавати людину — цього не знаю. Це питання не до мене. Цим займаються такі футурологи, як Рей Курцвейл — який, зрештою, працює в цьому ж будинку. Я ж тільки керую колективом інженерів, котрий старається створити якнайкращий продукт.

 

Ми досягли великого успіху, переходячи від перекладу поодиноких слів до перекладу речень — тепер наступним завданням є переклад цілого абзацу.

 

— Як журналіст я зазвичай лякаю злими наслідками технологій, але саме до вашого проекту пасує ця надмірно вживана в Кремнієвій Долині фраза про "зміну світу на краще".

 

— Дякую, я також так вважаю. Близько 50% контенту в інтернеті є по-англійськи, а тільки 20% населення говорить англійською. Тобто для 80% населення інтернет є радше непривітним місцем. Для них напевно ми змінюємо його на краще.

 

Барак Туровський закінчив Університет в Тель-Авіві і Берклі. Починаючи з 2014 року, керівник проекту GoogleTranslate. Минулого року він керував спеціальним проектом зміни автоматичного перекладу із статистичного на з використанням штучного інтелекту.

 

Розмовляв Войцех Орліньський

 


Barak Turovsky
Sztuczna inteligencja jest głupsza od trzylatka
Gazeta Wyborcza, 18.03.2017
​переклад О.Д.

 

 

21.03.2017