Дедалі більше країн починають розробляти власні великі мовні моделі*. Від Кремнієвої долини до Латинської Америки, від Франції до Естонії — штучний інтелект стає не лише технологічною, а й стратегічною темою. Але що саме ми маємо на увазі, коли говоримо про національну LLM? Чи йдеться лише про мовну адаптацію? Чи, можливо, про культурну, історичну та ціннісну вкоріненість?
В рамках курсу “Вибрані проблеми сучасності: Етика, Людина, Технології” для магістрів програми “Науки про дані” УКУ відбулося обговорення аналітичного звіту “Нацiональнi великi мовнi моделi: цiннiсть, стратегiї, регулювання”. Це дослідження реалізовано українською ШІ-спільнотою на чолі з OpenBabylon, lang-uk та Українським католицьким університетом.
Пропонуємо вашій увазі головні думки, які озвучили під час обговорення звіту дискутанти:
Олексій Молчановський, керівник Офісу інновацій УКУ, засновник магістерської програми “Науки про дані” в УКУ,
Юрій Панів, аспірант докторської програми “Інтелектуальні системи” в УКУ,
Андрій Бойчук, викладач Національного університету "Львівська політехніка",
Олександр Косован, викладач факультету прикладних наук УКУ.
*Велика мовна модель — це комп’ютерна програма, яка навчилася працювати з мовою так, ніби вона її "розуміє". Її завдання — передбачити, яке слово буде наступним у реченні, як правильно сформулювати думку або як відповісти на запитання. Щоб навчитися цьому, така модель "читає" мільйони чи навіть мільярди текстів — від книжок і статей до постів у соцмережах. Вона не запам’ятовує все дослівно, а виводить закономірності: як люди зазвичай говорять, як будуються речення, які слова вживаються разом.
Вона називається "великою", бо має надзвичайно багато внутрішніх параметрів — своєрідних "налаштувань", які допомагають моделі передбачати, як правильно сформулювати відповідь. Саме завдяки цій складній системі вона може будувати логічні речення, реагувати на запитання і навіть стилістично наслідувати людське мовлення. Чим більше таких параметрів — тим точніше, гнучкіше й природніше вона працює.Такі моделі лежать в основі чат-ботів (наприклад, ChatGPT), автоматичних перекладачів, голосових асистентів і багатьох інших застосунків.
Що таке національна мовна модель?
Юрій ПАНІВ:
Якщо говорити про національну велику мовну модель (LLM), то сьогодні багато країн вкладаються у створення таких моделей. Звісно, почалося це зі США — OpenAI, Anthropic та інші гравці задали темп. Але незабаром з'явилися й інші приклади. У Франції це Mistral. У Китаї багато хто користується DeepSeek.
Якщо порівняти навіть ці три моделі — OpenAI, Mistral і DeepSeek — вони часто дають різні відповіді на одні й ті самі запитання. Скажімо, якщо поставити їм запит про події на площі Тяньаньмень, ви отримаєте три зовсім різні версії. Те саме стосується й інших чутливих тем.
Це пояснюється тим, що кожна модель навчається на різних наборах даних, а отже і відображає певні світоглядні упередження, притаманні цим даним. Це можуть бути, зокрема, упередження щодо статі, етнічної приналежності, національності тощо.
Більше того, іноді в моделях можуть бути навмисно або ненавмисно приховані вразливості.
Коли ж ми маємо контроль над даними, на яких навчається модель, принаймні частковий, то можемо краще гарантувати її безпечність і прозорість. І ще один важливий аспект — це alignment, тобто відповідність моделі певним ціннісним та історичним координатам.
Наприклад, коли ставимо питання з історії, то навіть від відомих моделей, зокрема OpenAI, ми часто отримуємо відповідь, сформовану під впливом російської пропаганди. Досить спитати: «Чий Крим?» — і вже отримаємо якусь «нейтральну», ніби збалансовану, але насправді маніпулятивну відповідь у стилі «там не все так однозначно».
Андрій БОЙЧУК:
Для мене поняття «національна велика мовна модель» — це наче монета з двома сторонами. З одного боку, така модель має відповідати потребам певної нації. Якщо ми говоримо про українську LLM, то вона має якісно працювати з українською мовою, розуміти її особливості, нюанси, контексти. Вона повинна бути адаптованою до локальних культурних, соціальних і правових реалій.
А з іншого боку, це також питання контролю й регулювання. Якщо ми говоримо про національну модель, то вона, вочевидь, має розроблятися і використовуватись у межах національного регуляторного простору. У нашому випадку — під юрисдикцією і за стандартами, які встановлює Україна. Тобто мова не лише про технологію, а й про політичну та етичну відповідальність.
Олексій МОЛЧАНОВСЬКИЙ:
Я б хотів трохи розширити рамку і пояснити, чому ми взагалі сьогодні зібралися обговорювати цю тему.
Ми почали розмову про українську національну мовну модель ще доволі давно, і з часом стало очевидно, що нам бракує чітких і переконливих аргументів на її підтримку, особливо у спілкуванні з державними стейкголдерами.
Одним із поштовхів стала зустріч із віцепрем’єром Михайлом Федоровим під час IT Arena у вересні. Там задекларували, що Україна прагне увійти до трійки країн-лідерів за впровадженням ШІ у державне управління. Але поки що, згідно з Oxford Index for AI in Governance, ми на 54-му місці.
Водночас, якщо говорити про цифрову інфраструктуру, Україна має чимало рішень: від “Дії” до міжвідомчих сервісів. Тому природно постає запитання: чому б не інтегрувати штучний інтелект у ці механізми? Але тоді важливо вирішити, який саме ШІ використовувати. І ось тут ми приходимо до ідеї національної моделі.
Ми зрозуміли, що маємо сформулювати аргументи, які будуть зрозумілими для ключових гравців, і написали звіт. Це не просто імпровізований текст — це 30 сторінок із сотнями цитувань, аналітикою, порівняльними оглядами.
Ми створили цей документ з розумінням, хто буде його читати. Головна аудиторія — Михайло Федоров і команда Мінцифри. Саме тому звіт має executive summary, але не містить прямолінійних рекомендацій. Ми не хотіли нав’язувати рішення — лише окреслили спектр можливостей.
Також був створений AI Center of Excellence при Мінцифрі. Там працюють Данило Цвяк і Дмитро Овчаренко — дуже прогресивні люди, які мислять у схожих категоріях. Ми спілкуємося з ними про цифровий суверенітет. І саме тут національна LLM — це не просто інструмент. Це частина стратегічної автономії.
Але далі постає питання: а хто буде цим "Big Brother"? Хто контролюватиме того, хто контролює модель? Це дискусія, яку теж варто вести.
Ризики використання сторонніх моделей
Олександр КОСОВАН:
Олексій чудово підвів нас до наступного питання — про ризики. Ми вже згадували, що існує багато варіантів використання LLM у публічних сервісах. Але що станеться, якщо ми використовуватимемо сторонню модель, зокрема іноземну? Навіть якщо вона відкрита — які загрози в цьому приховані?
Олексій МОЛЧАНОВСЬКИЙ:
Насамперед ми стикаємося з питанням контролю — наскільки ми як країна можемо гарантувати доступ до цієї моделі. Коли я кажу «нація», то маю на увазі не лише державні органи, а й суспільство загалом. Навіть у нашій робочій групі представлені різні стейкголдери: університети, комерційні компанії, громадські активісти — і це добре. Але ключове питання залишається: наскільки ми можемо бути впевнені у стабільності доступу до цієї іноземної моделі?
Наприклад, тепер у Сполучених Штатах змінюється політика підтримки України — ширяться чутки про певні «чарівні перемикачі», які нібито можуть вимкнути військову техніку. Подібна ситуація може виникнути і з моделями на кшталт OpenAI: ми не можемо знати, чи не зникне раптом наш доступ до цієї моделі так само, як зараз є побоювання щодо Starlink.
Другий важливий аспект — дані, на яких навчалася модель. Ми не контролюємо їхнього складу. Ми можемо лише припускати, що там у десятки разів більше російськомовних текстів, ніж українських, але ми не знаємо, які саме українські тексти там використані. Наприклад, Сбербанк Росії створив українську мовну модель. Але чи ми хотіли б інтегрувати її в додатки на зразок “Дія” чи “Мрія” для навчання українських дітей?
І коли ми інтегруємо ШІ у сервіси типу "Мрія" (освітній додаток для школярів), то маємо бути впевнені, яку історію ця модель буде розповідати нашим дітям. Бо математика — універсальна, а ось історія як предмет повинна бути зрозумілою, прозорою, а головне – вона має базуватися на наших джерелах та матеріалах.
Андрій БОЙЧУК:
Так, і ще один важливий момент — якість моделей українською мовою дуже різниться. Хто пробував різні LLM, знає: сьогодні відповіді можуть бути кращі, завтра гірші. Найбільша проблема — відсутність українських бенчмарків*.
*Бенчмарки – це тестові набори, спеціально створені для перевірки коректності роботи моделей. Це може бути тест на граматику або орфографію. Тоді бенчмарк міститиме перелік речень: з помилками та виправленнями. Також бенчмарки можуть стосуватися фактологічних знань, етичних або ціннісних питань. В такому випадку бенчмарк виглядатиме подібно до тестів ЗНО/НМТ: перелік питань з варіантами відповідей.
Найкраще, що сьогодні ми можемо зробити, — це тестувати моделі на основі багатомовних бенчмарків або ж шукати подібні мови, наприклад польську чи російську, і намагатися екстраполювати результати на українську. Це явно не оптимальний підхід.
Однак тут є й інша сторона — ризики, які виникають, коли ми переходимо до національних моделей. Ми швидко впираємось у необхідність сертифікації, визначення критеріїв якості та безпеки. І ось тут виникає питання, що саме і як ми сертифікуємо. Якщо ми будемо сертифікувати модель за стандартами підручника з української історії — це одне. Але що, коли критерії сертифікації почнуть залежати від політичних поглядів чинної влади?
І хоча сьогодні ми можемо мати свої оцінки щодо поточного президента, згадайте Україну років дванадцять тому. Я б не хотів, щоб тоді мовна модель сертифікувалася відповідно до поглядів тогочасного президента Януковича. Це теж важливий аспект дискусії про ризики і про те, хто повинен контролювати сертифікацію.
Підходи до тестування мовних моделей
Юрій ПАНІВ:
Якщо говорити про тестування моделей, то, мабуть, варто почати з основ — як це взагалі вимірюється, зокрема на англійській мові.
Типові бенчмарки доволі спрощені — багато з них побудовані на основі шкільних програм. Це можуть бути стандартні тестові питання, які орієнтовані на випускників старшої школи або на рівень вступних іспитів до університетів. Один із таких способів — оцінити здатність моделі правильно відповідати на подібні запитання.
Інший поширений підхід — перевіряти, наскільки когерентно модель продовжує текст, залежно від вхідного корпусу. Обидва ці методи дозволяють отримати приблизне уявлення про здатність LLM оперувати мовою, її граматикою, стилістикою, логікою.
Ми вже почали рухатися в цьому напрямку. Найочевидніший вибір для базового тестування в Україні — це, звісно, ЗНО (тепер НМТ). Ці тести максимально нейтральні щодо будь-якої політичної влади. Я, принаймні, не пригадую жодного випадку, щоб зміст ЗНО залежав від президента чи уряду.
Спробуйте вгадати, яка модель посіла перше місце за результатами відповідей на запитання ЗНО? Найвищу точність показав Claude 3.5, на другому місці — Gemini з різницею в межах 1%. Обидві моделі набрали приблизно 60% правильних відповідей. Тобто, умовно кажучи, вони би вступили в УКУ, але зі скрипом :)
А от третє місце, абсолютно несподівано, зайняла Qwen 72B від Alibaba, китайська модель. Лише після неї, з відставанням приблизно на 20%, йде GPT-4.0 від OpenAI. Результати дійсно дивні, особливо якщо говорити про питання з історії — там загальні показники були ще нижчими, у межах 30–40% правильних відповідей.
Юрій ПАНІВ:
Тут важливо згадати й про токенізацію — як саме модель перетворює текст на числове представлення. Що ефективніша токенізація, то дешевше працює модель — і тим краще вона володіє мовою. На жаль, українська часто токенізується гірше, ніж інші мови.
Нещодавно ми заміряли, які токенайзери найкраще справляються з українською. Перше місце — Cohere, далі Gemma, а LLaMA і DeepSeek десь посередині. Це важливо, бо токенайзер прямо впливає на продуктивність і вартість моделі в застосуваннях.
До того ж, моделі часто краще справляються з мовами, які є комерційно важливішими. Це означає, що російських токенів більше, ніж українських, і модель краще працює російською. В результаті ми отримуємо суржик або змішаний стиль.
Отже, створення власного токенайзера та адаптація бенчмарків — це конкретні технічні кроки до побудови сильної української мовної інфраструктури.
Практичні виклики створення національної мовної моделі
Олександр КОСОВАН:
Було б цікаво поговорити і про те, як саме може виглядати процес створення національної LLM. Адже, як відомо, в самому звіті не було чітких рекомендацій, як це реалізувати. Які потенційні виклики можуть постати, якщо держава таки виділяє фінансування і запускає цей процес?
Андрій БОЙЧУК:
Якщо говорити про потенційні виклики, я б поділив їх на дві великі групи — юридичні та організаційні.
Юридичні проблеми виникають уже на старті. В багатьох сценаріях створення української національної моделі розглядається можливість використання моделі LLaMA як бази з подальшим донавчанням на українських даних. Але є нюанс: LLaMA офіційно не випущена для використання в Європейському Союзі через побоювання, що вона не відповідає AI Act — акту Єврокомісії з регулювання штучного інтелекту.
Оскільки Україна рухається в напрямку євроінтеграції й уже є асоційованим членом ЄС, такі речі потрібно враховувати. Навіть якщо наразі немає прямої заборони, може знадобитися створення юридичного механізму, який дозволить використовувати LLaMA в правовому полі, не порушуючи європейські регуляції.
Що стосується організаційних викликів, то мене, власне, запросили на цю дискусію як свого роду «опонента» ідеї створення національної LLM. Я вважаю, що ризиків тут чимало, а очікувана віддача від інвестицій не завжди очевидна.
Ключовий виклик — не створити модель, а підтримувати її актуальність. Інакше кажучи, щоб вона не застаріла вже через пів року. Наприклад, якщо у вересні 2024 року топовою вважалася LLaMA 4.0 5B, то в листопаді її вже змінила DeepSeek, а сьогодні, можливо, вже Sonnet 3.7 або нова версія Gemini. Прогрес блискавичний.
У таких умовах є великий ризик, що модель, створена за великі кошти, швидко втратить актуальність, а проєкт перетвориться на разовий імпульс без довготривалого ефекту.
На мою думку, більш вдалий і стратегічно виправданий підхід — інвестувати в українські бенчмарки. І працювати з основними гравцями — як комерційними (OpenAI, Anthropic), так і опенсорсними (Meta та інші), щоби українська мова була присутня у всіх глобальних бенчмарках.
Юрій ПАНІВ:
Справді, перш ніж інвестувати в щось масштабне, треба мати чітку оцінку потреб і ризиків.
Щодо аргументу про швидке старіння моделей — так, це реально серйозний ризик. Але він критичний лише тоді, коли користувачі постійно змінюють моделі. На практиці ж, якщо рішення працює, його зазвичай не чіпають. Тобто багато залежить від конкретного сценарію використання.
Тому створення моделі, яка добре працює саме з українською, — це не лише про ідентичність чи безпеку, а й про ефективність і економічність використання в реальних кейсах.
Олексій МОЛЧАНОВСЬКИЙ:
До цього всього додається ще один серйозний виклик — дані. За нашими оцінками, корпус "Малюк" (найбільший відкритий український корпус) треба помножити щонайменше на сім, щоб отримати обсяг, придатний для повноцінного навчання.
Це вже не лише технічне, а і юридичне питання. Не можна просто «скачати інтернет». Ми бачимо, що в США тривають суди, зокрема New York Times подала позов проти Microsoft і OpenAI. І якщо ми не хочемо опинитися в подібній ситуації, маємо діяти обережно.
У звіті, до речі, згадувався приклад Саудівської Аравії, де на законодавчому рівні дозволили використовувати навіть закриті тексти для навчання національної LLM. Можливо, це потенційна модель і для України.
Водночас в Україні розробляється власний законопроєкт про штучний інтелект, який, звісно, надихається європейським AI Act, але поки що містить багато невизначеностей. Наприклад, немає навіть офіційного перекладу AI Act українською — переклад кожен робить «під себе», що спричиняє нові дискусії і правову плутанину.
Тут виникає ще один важливий аргумент на користь національної LLM — правова термінологія. Нам потрібна модель, яка чітко і коректно працює саме з українською юридичною мовою. Бо наразі, щиро кажучи, для більшості користувачів, для фізичних осіб, немає особливої різниці, якою мовою працює ChatGPT, якщо він справляється з повсякденними завданнями.
Але коли ми говоримо про державні чи корпоративні сервіси — це зовсім інша історія. Наприклад, чому ПриватБанк або інша велика компанія досі не створила власну модель? Бо це надто дорого. І тому логічно, щоб держава інвестувала у створення спільної інфраструктури — так, як будує дороги або електростанції.
Ми у своїй робочій групі завжди підкреслюємо: національна LLM має бути відкритою — open source. Це принципова позиція. Але тут виникає питання до наборів даних, бо багато джерел згодні дати дані лише за умови, що вони не потраплять у відкритий доступ.
Те саме з токенайзерами — не завжди зрозуміло, чи можна їх відкрити. Але якщо модель буде опублікована відкрито, її зможуть використовувати всі гравці. Наприклад, ПриватБанк зможе дотренувати її на своїх даних. Або компанія ЛІГА — на масиві юридичних текстів для створення LegalTech-рішень.
До речі, навіть український громадянин не має відкритого доступу до всього корпусу правових текстів. Так, є сайт rada.gov.ua, але ви не можете звідти викачати повний набір даних — лише вручну або через обмежений API. Найкращі юридичні корпуси мають приватні компанії (наприклад, та ж ЛІГА), і вони, цілком логічно, не хочуть ділитися своїм додатковим бізнес-активом.
Це, знову ж таки, до питання: чим насправді володіє держава?
Постає ще одне важливе питання — довіра. У нас, в Україні, державі зазвичай не дуже довіряють. І щойно ми кажемо "національна модель", одразу виникає асоціація: "державна модель", "модель уряду", "модель Зеленського", "модель Януковича"…
Але насправді все має виглядати інакше. Саме для цього існує громадянське суспільство.
Тут величезна роль належить університетам. Моя особиста позиція — бенчмарки повинні створювати саме незалежні академічні інституції. Наприклад, УКУ створює один бенчмарк, Могилянка — інший, "Львівська політехніка" — третій. І всі вони мають бути у відкритому доступі, щоби моделі можна було порівнювати, тестувати й покращувати.
Щодо аргументу, що модель швидко застаріє, — погоджуюсь. Але ж дороги теж постійно латають. І хоча траса Київ–Чоп не ідеальна, її все одно підтримують. Так само й цифрову інфраструктуру потрібно обслуговувати й оновлювати.
Місія нашої групи — дати перший імпульс. Можливо, ми долучимося до створення першої ітерації моделі. Але, як це часто буває з волонтерськими проєктами, перший раз — на ентузіазмі, другий — уже складніше.
І тут треба перейти від аматорства до професіоналізму. Бо професіонал — це не той, хто один раз зробив щось геніальне, а той, хто дисципліновано робить свою справу знову і знову.
У звіті ми наводили приклади, як це реалізується інституційно в інших країнах. Це не може бути група з 8 людей, яка випадково отримала грант і щось розробила. Це завжди інституційна співпраця: держава (через агентство чи міністерство), університети (експертиза) і, можливо, корпорації (обчислювальні ресурси).
Ось приклад: нещодавно Мінцифра оголосила про співпрацю з NVIDIA — це перспективний напрям. Але навіть якщо ми не створимо «агенцію зі створення НММ», все одно має бути хтось, хто координуватиме процес. Бо від початку нашої роботи над звітом минуло трохи більше двох місяців, а за цей час уже поляки, естонці, болгари презентували свої національні моделі.
І хоча наш звіт потрібно буде постійно оновлювати, його мета — не лише зафіксувати стан справ, а й стимулювати дію.
Андрій БОЙЧУК:
Для мене важливо, щоб ми правильно формулювали мету. Навряд чи для когось із нас створення національної LLM є самоціллю. Це не про галочку «ми створили свою модель».
Ціль, як мені здається, — отримати якісний ШІ-інструмент, здатний працювати з українською мовою на високому рівні. І водночас мати інструмент, який дозволяє бути незалежними, контролювати дані, відповідати національним цінностям.
Тут ключове питання — яким шляхом досягти цієї мети? Чи є створення національної LLM найефективнішим варіантом? Можливо, існують дешевші й політично легші шляхи — наприклад, інвестування в дані, створення якісних наборів даних, підтримка адаптації сторонніх моделей під наші потреби.
Бо політична воля — річ мінлива. Сьогодні вона є — а що буде через три роки, ніхто не знає.
Мій головний аргумент — інвестиції в дані можуть мати більшу довготривалу цінність, ніж разовий проєкт зі створення LLM. Але водночас я готовий «пограти проти себе», бо є важливий аргумент, який ми ще не згадували.
Це військовий контекст.
У багатьох випадках, де йдеться про оборону або чутливу інформацію, ми не можемо використовувати публічні моделі чи хмарні сервіси. Потрібна власна інфраструктура, замкнена екосистема. Тут і виникає нагальна потреба у власній LLM, яка відповідає державним стандартам, вимогам безпеки, здатна працювати офлайн.
Я нещодавно був на закритій військовій конференції, де військові дуже дякували команді, яка просто перевела одну з форм звітності з паперового у цифровий формат. І це вже суттєво покращило їхню роботу. Тобто інструмент, який справді працює, — це величезна цінність. Не безмежна, але відчутна.
Чи обов’язково для цього створювати повноцінну національну модель? Не факт. Це може бути етапний підхід. Спочатку робота з даними, з існуючими провайдерами, спроба адаптації. І лише якщо не буде прогресу чи зацікавленості, тоді вже аргументовано рухатися в бік повноцінної LLM.
Юрій ПАНІВ:
Саме так. У звіті ми наводимо приклади: в усіх країнах, які досягли успіху, були залучені державні агенції, університети й приватні компанії. Іноді — міжнародні партнери. Це не робота групи ентузіастів з Telegram-чату.
Є певна відома українська компанія (не називатиму її), яка вже має досвід створення LLM для іншої країни. І вона розглядається як потенційний партнер у створенні української LLM.
Але головне — щоб ця модель не залишилася комерційною та закритою. Її цінність у тому, що вона може стати основою для розвитку локального бізнесу.
Андрій БОЙЧУК:
Також важливо згадати економічний бік. Якщо в нас не буде гнучкого інвестиційного клімату, податкових стимулів і загальної економічної стабільності, жоден гравець не вкладатиметься у створення LLM. Необхідно працювати над умовами для розвитку приватного сектору.
Сьогодні українські стартапи масштабу Grammarly — це, по суті, вже американські компанії. Нам потрібно зробити так, щоб інтерес був локалізований тут, щоб розвиток штучного інтелекту приносив користь всій екосистемі.
Юрій ПАНІВ:
Я погоджуюсь. І саме тому відкритість має бути ключовим принципом. Open-source модель — це спільна інфраструктура, яку можуть використовувати всі. Це як публічна дорога, на якій можна будувати сервіси: хтось створить чат-бота, хтось — освітній додаток, хтось — систему верифікації документів.
І це мультиплікатор. Ми всі виграємо від того, що модель буде доступною і прозорою.
Безпека, дезінформація та ризики зловживання
Олександр КОСОВАН:
Хотілося б також торкнутися теми безпеки. Ми вже говорили про open source як перевагу. Але чи не створюємо ми водночас ризики? Наприклад, що українську LLM можуть використати зловмисники — навіть з боку Росії?
Андрій БОЙЧУК:
Так, ми вже бачимо приклади подібних загроз. Наприклад, нещодавно оприлюднили інформацію про так звану "Російську мережу Правда" — кілька тисяч сайтів, які публікують дезінформацію, зокрема у форматі, зручному для навчання LLM. І це вже впливає на англомовні набори даних топових моделей.
Тож виникає два питання:
Як убезпечити українські набори даних від такого "отруєння"?
Як захистити українську LLM від використання ворогом?
Олексій МОЛЧАНОВСЬКИЙ:
Це реальні виклики. Але варто зважити: ризик зловживання open-source моделями не є чимось унікальним. Завжди буде ризик, що нашу модель хтось підхопить і використає в зворотному напрямку.
Але головна проблема в тому, що в нас поки немає навіть інструменту для того, щоб використовувати ШІ в хороших цілях. Ми програємо не тому, що нас атакують, — а тому, що ми самі ще не маємо достатньо якісного інструменту.
Логічне питання — чому ми не можемо працювати в зворотному напрямі? Якщо у них є сильні російські моделі, чому ми не атакуємо їх інформаційно, не «засмічуємо» їхній простір, не створюємо власні дестабілізуючі наративи?
Це класичне питання про відкриті технології. Завжди буде ризик — наприклад, із моделями text-to-speech, які вже кілька років дозволяють клонувати голоси і обходити банківську верифікацію.
Повністю усунути ризик неможливо. Як не можна створити ножа, яким не можна порізатись. Але це не означає, що ми не повинні робити ножі — треба просто знати ризики й мати інструменти, щоб з ними працювати.
Для мене особисто цей ризик прийнятний, якщо в результаті ми отримаємо інструмент, який полегшить життя, підвищить якість публічних сервісів і, що дуже важливо, зможе сам виявляти дезінформацію.
Якщо якась ціль буде достатньо цінною для ворога — він знайде спосіб її досягти. І навіть якби українська модель не була у відкритому доступі, нічого не заважає створити подібну модель у закритому контурі.
Тож питання полягає не в абсолютному усуненні ризиків, а в прийнятному рівні ризику.
Юрій ПАНІВ:
Цілком згоден. І тут варто говорити не лише про те, які дані потрапляють у модель, а й про те, як ми їх відбираємо. Не кожен текст українською мовою повинен опинитися в корпусі для тренування.
У нашій команді є дискусія — чи беремо ми всі доступні тексти, чи вводимо якісь фільтри якості, зокрема семантичні. Я можу уявити систему, яка перед включенням тексту в певний набір даних аналізує його через ембедінги: де він розташовується в «хмарі змістів», як він виглядає з точки зору політичної, ідеологічної нейтральності тощо.
Я не певен, наскільки сьогодні це вже реалізовано на практиці, але така семантична модерація дуже важлива. Бо інакше ми ризикуємо навантажити модель токсичним контентом ще до того, як вона щось почне «розуміти».
Андрій БОЙЧУК:
Також маємо пам’ятати, що навіть хороші українські моделі сьогодні значно відстають від російських. У нас поки немає повноцінної інфраструктури, а вони вже її використовують для системної дезінформації.
Наприклад, у Бразилії мовну модель створила приватна компанія. Але в Албанії, де такого гіганта немає, все ж створили національну LLM — і це факт. А от в України, формально, такої ще немає.
Особисто я вважаю, що ключова цінність — у відкритості. Якщо модель і буде створена, вона має бути з відкритим кодом, на відкритих наборах даних, з доступними бенчмарками.
Бо це дозволяє розвиватися всій екосистемі: з’являються інтегратори, з’являються бізнеси, які будують рішення на основі моделі. Це класичний win-win.
Питання не лише в тому, як оборонятися, а й у тому, чому ми не створюємо власні інструменти наступу. Наприклад, чому б не використати LLM для кампаній у російському інфопросторі?
Так, ризики є. Але якщо ми нічого не створимо, то не матимемо навіть можливості оборонятися, не кажучи про наступ. Тому open source — це не про наївність. Це про демократичний контроль і технологічну автономію.
Олександр КОСОВАН:
Чи є відсутність потужної української компанії, яка могла б стати основою для створення національної LLM, реальною проблемою?
Андрій БОЙЧУК:
На мою думку — ні, це не критична проблема.
Так, у нас є економічні труднощі, війна, обмежені ресурси. Але водночас компанії продовжують працювати, інвестиції відбуваються. Наприклад, буквально вчора стало відомо, що Kyivstar купив Uklon за 155 мільйонів доларів. Тобто ринок живий.
Ба більше — ми вже ведемо дискусії про можливе державне фінансування розробки національної LLM. Навіть якщо не напряму з бюджету, але держава, як мінімум, є зацікавленою стороною. І це вже знак того, що певна політична воля існує.
Так, ринку складно, але він є — і на ньому присутні компанії, які вже інтегрують ШІ-рішення. Навіть у банківських кол-центрах або в спам-дзвінках від казино вже використовуються Text-to-Speech моделі. Ще у 2021 році я особисто стикався з українськими ШІ-аватарами в комунікації.
Олександр КОСОВАН:
Сьогодні ми дійсно порушили багато важливих тем — від технологічних аспектів до політичних і економічних викликів.
Ще раз хочу підкреслити: ми не говоримо про одну "національну модель" як єдину істину. Ми говоримо про екосистему українських LLM, яка буде відкритою, гнучкою, адаптивною до задач і викликів. І якщо ця технологія збережеться (а виглядає, що так), то таких моделей буде багато — від освітніх до спеціалізованих, від правових до військових.
Наша ціль — дати імпульс. Запустити цю розмову в публічному просторі. І ми вже бачимо, що вона має відгук. Дякую всім, хто долучився, і тим, хто буде це далі розвивати.
Дискусія відбулася в рамках відкритого обговорення щодо ідеї створення української національної мовної моделі.
Текст підготував Андрій ГРИНИХА.
19.06.2025