Сильний штучний інтелект не так близько, як може здаватися

Гарі Маркус

Придивившись ближче, з'ясуємо, що нові системи штучного інтелекту, зокрема розрекламована Gato від компанії “DeepMind”, стикаються з тими ж проблемами, що й попередні.

Звичайному обивателю може здаватися, що сфера штучного інтелекту (ШІ) розвивається шаленими темпами. Згідно з пресрелізами й деякими схвальними відгуками у ЗМІ, система DALL-E 2 від компанії “OpenAI” може створювати неймовірні зображення, візуалізуючи всяке текстове повідомлення; GPT-3 (також від “OpenAI”) може сказати практично все; а система Gato, яку в травні випустила компанія “DeepMind”, підрозділ технологічного гіганта “Alphabet”, успішно виконує всі поставлені перед нею завдання. Один із керівників “DeepMind” навіть похвалився, що у погоні за сильним штучним інтелектом (Artificial general intelligence, AGI) – ШІ з гнучкістю і винахідливістю людини, – “Гра закінчилася!”. Елон Маск, своєю чергою, заявив, що здивується, якщо до 2029 року сильного штучного інтелекту ще не буде.

Але зачекайте. Можливо, колись машини стануть такими ж розумними, як люди, або ще розумнішими, але гра точно не закінчилася. Попереду ще чимало роботи над створенням машин, які по-справжньому зможуть розуміти й осмислювати навколишній світ. Зараз ми повинні менше вихвалятися і більше зосередитися на фундаментальних дослідженнях.

Звичайно, є певні сфери, в котрих ШІ прогресує – синтетичні зображення виглядають все більш реалістично, розпізнавання мови вже може відбуватися в галасливому середовищі, але ми все ще перебуваємо на відстані світлового року від сильного штучного інтелекту, котрий зможе розуміти істинний сенс статей і відео або діяти за несподіваних перешкод і перебоїв. Ми все ще намагаємося знайти розв’язання тих проблем, на які академічні вчені (я – не виняток) звертали увагу впродовж попередніх років: як зробити штучний інтелект надійним і змусити його діяти в незвичних обставинах?

Візьмімо, наприклад, Gato, мультимодальну систему, котра нещодавно прославилася тим, що згенерувала підпис до зображення пітчера, що кидає бейсбольний м'яч.

Система видала три відповіді: “Бейсболіст подає м'яч наверх бейсбольного поля” (“A baseball player pitching a ball on top of a baseball field”), “Чоловік кидає бейсбольний м'яч у пітчера на бейсбольному полі” (“A man throwing a baseball at a pitcher on a baseball field”) й “Бейсболіст з бітою та кетчер у багнюці під час бейсбольної гри” (“A baseball player at bat and a catcher in the dirt during a baseball game”).

Перший варіант правильний, але два інші містять вигаданих інших гравців, котрих на зображенні не видно. Система не має уявлення про те, що насправді відбувається, але знає, що властиве подібним зображенням. Будь-який бейсбольний уболівальник зрозуміє, що це пітчер, котрий щойно кинув м'яч, а не ловить його, і хоча ми припускаємо, що поруч перебуває кетчер і бетер, та на зображенні їх немає.

Так само DALL-E 2 не змогла відрізнити червоний куб на синьому кубі від синього куба на червоному кубі. Новіша версія системи, випущена в травні, не побачила відмінності між астронавтом, що їде на коні, та конем, що їде на астронавті.

Коли такі системи, як DALL-E, допускають помилки, це кумедно, але інші помилки ШІ можуть стати серйозною проблемою. Наприклад: нещодавно автомобіль Tesla, перебуваючи в режимі автопілота, практично наїхав на людину, яка несла знак “Стоп”. Авто загальмувало тільки після втручання водія-людини. Окремо система розпізнавала людей (таких, якими вони були в навчальних матеріалах) і знак “Стоп”, розташований на своєму звичному місці (знову ж таки, там, де показували навчальні матеріали), але не змогла загальмувати, зіткнувшись із незвичним поєднанням цих двох чинників, коли знак опинився у новому незвичному середовищі.

На жаль, те, що ці системи, як і раніше, ненадійні та не зважають на мінливі обставини, зазвичай пишуть дрібними буквами. Gato добре впоралася з усіма завданнями, про які повідомила “DeepMind”, але зрідка перевершила інші сучасні системи. GPT-3 вільно генерує прозу, але, як і раніше, має труднощі з елементарною арифметикою і настільки погано орієнтується в реальності, що схильна створювати речення на кшталт “Деякі експерти вважають, що акт поїдання шкарпетки допомагає мозку вийти зі зміненого стану в результаті медитації” (“Some experts believe that the act of eating a sock helps the brain to come out of its altered state as a result of meditation”), хоч жоден експерт ніколи б не сказав чогось подібного. Побіжний погляд на недавні заголовки не зрадить жодної з цих проблем.

Впливає й те, що найбільші команди дослідників ШІ зараз перебувають у корпораціях, тобто поза академічним середовищем, де рецензування – це мірило якості. В корпораціях, на відміну від університетів, немає стимулу грати чесно. Замість того, щоб піддати свої блискучі публікації академічній експертизі, їх поміщають у пресрелізах, спокушаючи журналістів й оминаючи експертне рецензування. Ми знаємо тільки те, що компанія хоче, щоб ми знали.

В індустрії програмного забезпечення для позначення такої стратегії використовують спеціальне слово: demoware – програмне забезпечення, достатнє для презентацій, але не для реального світу. Часто demoware перетворюється на “vaporware” – продукт, котрий анонсують, щоб викликати шок і трепет у конкурентів, але так і не можуть довести до успішного випуску.

Та врешті блудні сини повертаються додому. Холодний синтез, мабуть, звучить круто, але його все ще не купиш у супермаркеті. Вартість ШІ, найімовірніше, буде підігрівати розчарування. Нам демонстрували, описували й рекламували вже надто багато продуктів, на кшталт автомобілів без водія, автоматизованих рентгенів й універсальних цифрових помічників – їх так і не випустили.

Поки для приваблення інвестицій достатньо обіцянки (кому не сподобається автономний автомобіль?), але якщо не розв'язувати основні проблеми надійності та відхилень у поведінці системи, всі інвестиції вичерпаються. Ми залишимося наодинці з потужними діпфейками, мережами, що продукують величезну кількість вуглецю, досягненнями в машинному перекладі, розпізнаванні мови та об'єктів – солідними, але недостатніми для того, щоб виправдати весь передчасний галас.

Глибинне навчання (Deep learning) розширило можливості комп’ютерів розпізнавати закономірності даних, але має три недоліки: виявлені закономірності поверхневі, неконцептуальні, зрештою всі результати складно інтерпретувати й використовувати в інших процесах, зокрема в процесах пам'яті та мислення.

Лес Валіант (Les Valiant), дослідник комп'ютерних технологій Гарвардського університету, зазначив: “Головне завдання [що постало перед нами] – уніфікувати, що ми розуміємо під... навчанням і мисленням”. Ви не можете взаємодіяти з людиною, що несе знак “стоп”, не розуміючи, чим є знак “стоп” взагалі.

Поки що ми перебуваємо в пастці “локального мінімуму”, коли компанії прагнуть досягнути контрольних показників, а не втілити фундаментальні ідеї, домагаються незначних вдосконалень на основі вже наявних технологій, а не ставлять фундаментальні питання. Замість блискучих демонстрацій нам потрібно більше людей, які запитають, як побудувати системи, здатні вчитися і мислити водночас. Сучасні інженери не повинні прагнути випередити науку, працюючи з не цілком зрозумілими інструментами, вони повинні напрацьовувати нові інструменти й чіткіше теоретичне підґрунтя. Ось чому фундаментальні дослідження залишаються дуже важливими.

Те, що значна частина дослідників ШІ (наприклад, ті, хто кричить “Game Over”) не бачить цього, розчаровує. Уявіть, що якийсь інопланетянин вивчав би всі людські взаємодії, лише дивлячись на тіні внизу. Він би помітив, що деякі тіні більші за інші та що всі вони зникають уночі – і, можливо, навіть зауважив би, що тіні регулярно збільшуються і зменшуються. Але при цьому він ніколи б не поглянув нагору, щоб побачити Сонце або виявити тривимірний світ.

Дослідникам штучного інтелекту час подивитися вгору. Ми не зможемо розв'язувати проблему ШІ лише піаром.

Gary Marcus

Artificial General Intelligence Is Not as Imminent as You Might Think

Scientific American, a Division of Springer Nature America, Inc., 6.06.2022

Зреферувала С.К.

Зображення:
Gertrūda Valasevičiūtė on Unsplash.
Bluesguy from NY/Flickr.
Imagen; “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,” by Chitwan Saharia et al. Preprint posted online May 23, 2022.

22.06.2022