ChatGPT і генеративний штучний інтелект як виклик

Дослідники в захваті, але з побоюванням сприймають останні досягнення щодо штучного інтелекту.

У грудні вчені з обчислювальної біології Кейсі Грін і Мілтон Півідорі розпочали незвичайний експеримент: вони попросили асистента, який не був науковцем, допомогти вдосконалити три їхні наукові роботи. Цей старанний помічник пропонував зміни до розділів документів за лічені секунди; перегляд кожного рукопису тривав близько п'яти хвилин. В одному документі їхній помічник навіть виявив помилку в посиланні на рівняння. Процес не завжди проходив гладко, але у результаті роботи було легше читати, а вартість послуги виявилася дуже незначною – менш ніж пів долара США за документ.

Цей асистент, як повідомили Грін і Півідорі у препринті від 23 січня, – не людина, а алгоритм штучного інтелекту під назвою GPT-3 [Generative Pre-trained Transformer – генеративний попередньо навчений перетворювач], вперше випущений у 2020 році. Це один із широко розповсюджених генеративних інструментів у вигляді чат-бота, що може видавати переконливо плинний текст незалежно від того, потрібно написати прозу, поезію, комп'ютерний код або – як у випадку з науковцями – редагувати наукові статті.

Найбільш знаним із цих інструментів, відомих також як великі мовні моделі, LLM [Large Language Models), є ChatGPT, версія GPT-3 якого прославилася після виходу в листопаді минулого року, бо була безкоштовною і легкодоступною. Інші генеративні штучні інтелекти можуть створювати зображення або звуки.

"Я справді вражений, – каже Півідорі, який працює в Пенсільванському університеті у Філадельфії. – Це допоможе нам якo дослідникам бути продуктивнішими". Інші науковці кажуть, що тепер вони регулярно використовують LLM не лише для редагування статей, а й для допомоги в написанні чи перевірці коду та також для брейнстормінгових ідей. "Тепер я щоденно використовую LLM", – каже Хафстейнн Ейнарсон, комп'ютерний науковець із Університету Ісландії в Рейк'явіку. Він починав з GPT-3, але відтоді перейшов на ChatGPT, який допомагає йому писати презентаційні слайди, завдання для студентських іспитів та курсових робіт, а також перетворювати студентські дисертації на статті. "Багато людей використовують його як цифрового секретаря або асистента", – каже він.

LLM є частиною пошукових систем, асистентів для написання коду і навіть чат-бота, що веде переговори з чат-ботами інших компаній, аби отримати кращі ціни на товари. Засновник ChatGPT, компанія OpenAI з Сан-Франциско (Каліфорнія), анонсувала послугу передплати за $20 на місяць, обіцяючи швидший час відповідей та пріоритетний доступ до нових опцій (хоча пробна версія залишається безкоштовною). А технологічний гігант Microsoft, який уже інвестував в OpenAI, оголосив про подальші інвестиції в січні – вони, як повідомляють, становитимуть близько 10 мільярдів доларів. LLM приречені бути інтегрованими в загальне програмне забезпечення обробки слів і даних. Майбутня повсюдність генеративного штучного інтелекту виглядає гарантованою і в суспільстві –особливо якщо врахувати, що сьогоднішні інструменти репрезентують технологію лиш на стадії зародження.

Але LLM також викликають різноманітні занепокоєння: від проблем із їхньою схильністю давати хибні відповіді — до побоювань, що люди видаватимуть згенерований штучним інтелектом текст за свій власний. Коли журнал Nature запитав науковців про потенційне використання таких чат-ботів, як ChatGPT, зокрема в науці, то захоплення дослідників стримувалося застереженнями. "Якщо ви вважаєте, що ця технологія має потенціал для трансформації, тоді, я думаю, вам варто нервувати з цього приводу", – зазначає Грін з Медичної школи Колорадського університету в Аврорі. Дослідники кажуть, що багато чого залежатиме від того, як майбутні регуляторні норми та рекомендації зможуть обмежити використання чат-ботів зі штучним інтелектом.

Плинно, проте не фактологічно

Деякі дослідники вважають, що для прискорення виконання таких завдань, як написання статей або ґрантів, LLM надаються добре, доки присутній людський нагляд. "Вчені більше не будуть сидіти і писати довгі вступи для ґрантових заявок", – каже нейробіолог із Сальґренської університетської лікарні у шведському Ґетеборзі Альміра Османович Тунстром, яка у співавторстві написала статтю, в якості експерименту використовуючи GPT-3. – Вони просто скажуть зробити це системам".

Том Туміель, інженер-дослідник у InstaDeep, лондонській консалтинговій фірмі з програмного забезпечення, каже, що він щодня використовує LLM як асистентів для написання коду. "Це майже як покращений Stack Overflow", – розповідає він, посилаючись на популярний веб-сайт спільноти, де кодери відповідають на питання одне одного.

Але дослідники наголошують, що LLM є засадничо ненадійними, коли їх про щось запитати, і часом генерують хибні відповіді. "Нам треба бути обережними, коли використовуємо ці системи для продукування знань", – каже Османович Тунстром.

Ця ненадійність закладена в принципі будови великих мовних моделей. ChatGPT та його конкуренти працюють, вивчаючи статистичні патерни мови у величезних базах даних онлайн-текстів – включно з будь-яку неправдою, упередженнями чи застарілими знаннями. Коли LLM отримують підказки (як-от ретельно структуровані запити Гріна і Півідорі переписати частини тексту), вони просто видають, слово за словом, варіант продовження розмови, що виглядає стилістично найпринятнішим.

Результатом є те, що LLM легко продукують помилки й оманливу інформацію, особливо щодо технічних питань, з яких вони, можливо, не мали достатньо даних для навчання. LLM також не можуть показати джерела своєї інформації, а якщо їх попросять написати академічну статтю, вони вигадують фіктивні цитати. "Інструменту не можна довіряти у встановленні фактів або створенні надійних посилань", – зазначається в січневій редакційній статті про ChatGPT журналу Nature Machine Intelligence.

З урахуванням цих застережень, ChatGPT та інші LLM можуть бути ефективними асистентами для дослідників, які мають достатньо знань, щоб безпосередньо виявляти проблеми або легко верифікувати відповіді – наприклад, чи пропоноване пояснення або пропозиція щодо комп'ютерного коду є правильними.

Але ці інструменти можуть вводити в оману наївних користувачів. У грудні, наприклад, Stack Overflow тимчасово заборонив використання ChatGPT, бо модератори сайту зіткнулися з великою кількістю надісланих захопленими користувачами неправильних, але на перший погляд переконливих відповідей, згенерованих LLM. Це може бути жахіттям для пошукових систем.

Чи можна усунути недоліки?

Деякі інструменти пошукових систем, як-от дослідницько орієнтований Elicit, оминають атрибуційні проблеми LLM і використовують їхні можливості, щоби спочатку скеровувати запити на релевантну літературу, а тоді стисло узагальнити кожен веб-сайт чи документ, який пошукова система знаходить, – продукуючи таким чином результат, на який, вочевидь, є посилання (хоча LLM все ж може хибно узагальнювати кожен окремий документ).

Компанії, що розробляють LLM, також добре знають про ці проблеми. У вересні минулого року дочірня компанія Google DeepMind опублікувала статтю про "діалогового агента" під назвою Sparrow, який, як пізніше повідомив журналу TIME генеральний директор і співзасновник фірми Деміс Гассабіс, цього року буде випущений у закритій бета-версії; журнал сповістив, що Google має намір далі поглиблювати можливості, зокрема щодо здатності цитувати джерела. Інші конкуренти, наприклад Anthropic, стверджують, що вони розв'язали деякі проблеми ChatGPT (Anthropic, OpenAI і DeepMind відмовилися від інтерв'ю для цієї статті).

Деякі науковці кажуть, що наразі ChatGPT не навчений на достатньо спеціалізованому контенті, щоби бути корисним у технічних питаннях. Карім Карр, аспірант біостатистики в Гарвардському університеті в Кембриджі (Массачусетс), був розчарований, коли спробував його в роботі. "Я гадаю, що ChatGPT важко досягти того рівня специфічності, який мені потрібен", – каже він. (Попри це, Карр розповідає, що коли він попросив ChatGPT запропонувати 20 способів вирішення дослідницького запиту, той видав у відповідь абракадабру й одну корисну ідею – статистичний термін, про який він не чув і який вказав йому на нову область академічної літератури).

Деякі технологічні фірми навчають чат-ботів на спеціалізованій науковій літературі – втім, вони зіткнулися з власними проблемами. У листопаді минулого року компанія Meta – технологічний гігант, що володіє Facebook, – випустила LLM під назвою Galactica, яка навчалася на наукових рефератах, з наміром зробити її особливо вправною у продукуванні академічного контенту та у відповідях на дослідницькі запитання. Демонстраційна версія була вилучена з публічного доступу (хоча її код залишається доступним) після того, як користувачі змусили її генерувати неточності та расизм. "Тепер уже неможливо розважитися, час від часу зловживаючи нею. Задоволені?" – затвітив у відповідь на критику головний науковець зі штучного інтелекту Meta Янн ЛеКун. (Компанія Meta не відповіла на поданий через пресслужбу запит щодо розмови з ЛеКуном).

Безпека і відповідальність

Galactica зіткнулася зі знайомою безпековою проблемою, на яку етики вказували роками: без контролю вихідних даних великі мовні моделі можна легко використовувати для генерування мови ненависті та спаму, а також расистських, сексистських та інших шкідливих асоціацій, що імпліцитно можуть міститися в їхніх навчальних даних.

Існують також побоювання, що чат-боти, окрім безпосереднього продукування токсичного контенту, будуть закладати в свої навчальні дані історичні упередження або світобачення, наприклад зверхність певних культур, зазначає Шобіта Партасареті, директор програми науки, технологій та державної політики в Мічиґанському університеті в Анн-Арборі. Оскільки фірми, які створюють LLM, здебільшого належать до цих культур, вони можуть докладати недостатньо зусиль для подолання подібних упереджень, які є системними і які важко виправити, додає вона.

OpenAI намагалася уникнути багатьох із цих проблем, коли зважилася на відкритий реліз ChatGPT. Вона обмежила свою базу знань до 2021 року, заблокувала доступ до інтернету і встановила фільтри, щоби змусити додаток відмовлятися продукувати контент для вразливих або токсичних запитів. Щоби досягнути цього, щоправда, людям-модераторам довелося маркувати масиви токсичного тексту. Журналісти повідомляють, що цим працівникам мало платять, а деякі зазнали травм. Подібні занепокоєння щодо експлуатації працівників також стосуються соціальних медіакомпаній, які наймали людей, щоби ті навчали автоматизованих ботів маркувати токсичний контент.

Не можна сказати, що запобіжники OpenAI були повністю успішними. У грудні минулого року комп'ютерний нейробіолог Стівен П'янтадосі з Каліфорнійського університету в Берклі затвітив, що він попросив ChatGPT розробити Python-програму для визначення того, чи варто піддавати людину тортурам на підставі країни її походження. Чат-бот відповів кодом, що пропонував користувачеві ввести країну – і виводив "Ця людина повинна бути піддана тортурам", якщо йшлося про вихідця з Північної Кореї, Сирії, Ірану або Судану. (Згодом OpenAI закрив такі запитання).

Торік група науковців випустила альтернативну велику мовну модель під назвою BLOOM. Дослідники спробували зменшити кількість шкідливих результатів, навчаючи його на меншій кількості високоякісних багатомовних текстових джерел. Команда розробників також зробила свої навчальні дані повністю відкритими (на відміну від OpenAI). Дослідники закликали великі технологічні компанії відповідально наслідувати цей приклад, але поки що незрозуміло, чи дослухаються вони до них.

Деякі дослідники вважають, що науковці повинні взагалі відмовитися від підтримки великих комерційних LLM. Окрім таких проблем, як упередженість, питання безпеки та експлуатації працівників, ці обчислювально-інтенсивні алгоритми також потребують величезної кількості енергії для навчання, що викликає занепокоєння щодо їхнього впливу на довкілля. Також побоювання викликає те, що дослідники, перекладаючи мислення на автоматизованих чат-ботів, можуть втратити здатність артикулювати свої власні думки. "Чому ми, науковці, воліємо використовувати і рекламувати такий продукт?" – написала у своєму блозі Іріс ван Роой, науковець із комп'ютерної коґнітології з Радбоуд-університету в Неймегені, Нідерланди, закликаючи науковців не піддаватися цій спокусі.

Ще більшу плутанину викликає правовий статус деяких LLM, які були навчені на назбираному в інтернеті контенті з іноді менш ніж ясними дозволами. Закони про авторське право та ліцензування наразі поширюються на прямі копії пікселів, тексту та програмного забезпечення, але не на імітації їхнього стилю. Коли ці імітації, що згенеровані штучним інтелектом, тренуються шляхом поглинання оригіналів, це спричиняє певні проблеми. На творців деяких мистецьких програм зі штучним інтелектом, зокрема Stable Diffusion і Midjourney, наразі подали до суду художники та фотоагентства; OpenAI і Microsoft (разом з її дочірнім технологічним сайтом GitHub) також судяться через піратство у створенні їхнього штучноінтелектного помічника з кодування Copilot. Такий резонанс може призвести до змін у законодавстві, вважає Ліліан Едвардс, спеціаліст з інтернет-права з Ньюкаслського університету, Великобританія.

Забезпечення доброчесного користування

Тож встановлення меж для цих інструментів може мати вирішальне значення, стверджують деякі дослідники. Едвардс припускає, що чинні закони про дискримінацію та упередженість (а також заплановане врегулювання небезпечного використання штучного інтелекту) допоможуть зберегти використання LLM чесним, прозорим і справедливим. "Існує безліч законів, – каже вона, – і річ лише в тому, щоб їх застосовувати або трішки підкоригувати".

Водночас існує прагнення до прозорого розкриття інформації про використання LLM. Наукові видавництва (в тім числі Nature) заявили, що вчені повинні повідомляти про використання LLM у своїх наукових роботах; а викладачі кажуть, що очікують подібної поведінки від своїх студентів. Журнал Science пішов далі, заявивши, що жоден текст, згенерований ChatGPT або будь-яким іншим інструментом штучного інтелекту, не може бути використаний у статті.

Одне з ключових технічних питань полягає в тому, чи можна легко виявити контент, створений штучним інтелектом. Багато дослідників працюють над цим питанням, і основна їхня ідея – використання самих LLM для виявлення тексту, створеного штучним інтелектом.

У грудні минулого року, наприклад, Едвард Тянь, бакалавр комп'ютерних наук з Прінстонського університету Нью-Джерсі, представив GPTZero. Цей інструмент для розпізнавання штучного інтелекту аналізує текст двома способами. Один із них – це "заплутаність", міра того, наскільки знайомим виглядає текст для LLM. Інструмент Тяна використовує більш ранню модель, яка називається GPT-2; якщо він вважає більшість слів і речень передбачуваними, то, ймовірно, текст був згенерований штучним інтелектом. Інструмент також оцінює варіативність тексту – показник, відомий як "неочікуваність" (burstiness): текст, створений штучним інтелектом, має тенденцію бути більш послідовним за тоном, інтонацією та заплутаністю, ніж текст, написаний людьми.

Багато інших продуктів аналогічно спрямовані на виявлення контенту, написаного штучним інтелектом. Сама OpenAI вже створила детектор для GPT-2, а в січні випустила ще один інструмент для виявлення штучного інтелекту. Для наукових цілей особливо важливим може бути інструмент, який розробляє компанія Turnitin, розробник програмного забезпечення для боротьби з плагіатом, адже їхні продукти вже використовують школи, університети та наукові видавництва в усьому світі. Компанія заявляє, що працює над програмним забезпеченням для виявлення плагіату з моменту виходу GPT-3 у 2020-му – і планує презентувати його в першій половині цього року.

Втім, жоден із цих інструментів не претендує на безпомилковість, особливо якщо згенерований штучним інтелектом текст згодом зазнав редагування. Крім того, детектори можуть помилково припустити, що текст, написаний людиною, є штучно створеним, каже Скотт Ааронсон, комп'ютерний науковець із Техаського університету в Остіні та запрошений дослідник OpenAI. Компанія заявила, що під час тестів її новітній інструмент неправильно позначав написаний людиною текст як написаний штучним інтелектом у 9% випадків, і лише 26% текстів, написаних штучним інтелектом, були правильно ідентифіковані. За словами Ааронсона, можуть знадобитися додаткові докази, перш ніж, наприклад, звинувачувати студента у прихованому використанні штучного інтелекту винятково на основі перевірки детектора.

Окрема ідея полягає в тому, що контент штучного інтелекту буде мати свій власний водяний знак. У листопаді минулого року Ааронсон оголосив, що він і OpenAI працюють над методом накладання водяних знаків на вихідні дані ChatGPT. Його ще не випустили, але в препринті від 24 січня команда під керівництвом комп'ютерного науковця Тома Голдштейна з Мерілендського університету в Коледж-Парку запропонувала один зі способів створення водяного знака. Суть ідеї – використання генераторів випадкових чисел у певні моменти, коли LLM генерує вихідні дані, аби створити списки вірогідних альтернативних слів, з яких LLM має вибирати. Це залишає в остаточному тексті слід вибраних слів, які можна ідентифікувати статистично, але які є неочевидними для читача. Редагування може усунути цей слід, але Голдштейн припускає, що для цього потрібно замінити більш ніж половину слів.

Перевагою водяних знаків є те, що вони рідко помилково спрацьовують, зазначає Ааронсон. Якщо водяний знак присутній, то текст, ймовірно, був створений штучним інтелектом. Однак він не буде безпомилковим, каже він. "Звичайно, існують способи обійти практично будь-яку схему накладання водяних знаків, якщо бути достатньо наполегливим". Інструменти виявлення та водяні знаки лише ускладнюють обманне використання штучного інтелекту, але не унеможливлюють його.

Тимчасом творці LLM зайняті розробкою складніших чат-ботів, побудованих на більших масивах даних (OpenAI планує випустити GPT-4 цього року) – зокрема інструментів, спрямованих на академічну чи медичну роботу. Наприкінці грудня Google і DeepMind опублікували препринт про клінічно орієнтований LLM, який вони назвали Med-PaLM7. Інструмент може відповідати на деякі довільні медичні запити майже так само добре, як і звичайний лікар, хоча він усе ще має недоліки та ненадійності.

Ерік Топол, директор Науково-дослідного трансляційного інституту Скріппса в Сан-Дієго (Каліфорнія), сподівається, що в майбутньому штучний інтелект, зокрема LLM, зможе навіть допомагати в діагностиці раку і розумінні хвороби шляхом перехресної перевірки тексту наукової літератури зі сканами тіла. Але все це потребуватиме належного нагляду з боку спеціалістів, наголошує він.

Комп'ютерна наука, закладена в генеративні штучні інтелекти, розвивається так швидко, що інновації з'являються щомісяця. Те, як дослідники вирішать їх використовувати, визначатиме їхнє та наше майбутнє. "Думати, що на початку 2023 року ми побачили кінець цього, – безглуздо, – каже Топол. – Насправді все тільки починається".