Імітація людського голосу: на добре і на зле

Вимовіть 160 французьких або англійських фраз в додаток на смартфоні, який розробляє компанія CandyVoice – додаток проаналізує ваш голос і озвучуватиме ним будь-який текст. Звучання, правда, виходить дещо штучне, але шеф компанії Жан-Люк Кребуа обіцяє, що вже невдовзі його неможливо буде відрізнити від вашого природного голосу. Аналогічну програму під назвою FestVox розробляє Інститут лінгвістичних досліджень Університету Карнеґі-Меллон для англійської та чотирьох найпоширеніших мов в Індії. А китайський інтернет-гігант Baidu заявляє, що вже створив програму, якій достатньо послухати усього п’ятдесят речень, щоби точно відтворювати будь-який голос.

Клонування (або «банкінг») людського голосу досі було вельми недешевою справою, яку робили в студіях під замовлення, переважно для людей, які ризикували втратити голос через рак або операцію. Для цього потрібно було вимовляти безліч фраз, причому щоразу з різним емоційним наголосом й інтонацією (стверджувальне речення, запитання, команда тощо), щоб охопити всі варіанти вимови. Вартість такої послуги в компанії AcapelaGroup у Бельгії становить щонайменше 3000 євро та потребує, як мінімум, восьми годин студійного запису. Інші компанії беруть навіть дорожче та заставляють своїх клієнтів днями просиджувати в студії.

Тепер цього всього більше не потрібно. Додаток на смартфоні розкладає сказані вами фрази на мікрофрагменти тривалістю п’ять мілісекунд (кожен із точною висотою), котрі використовує як своєрідний голосовий алфавіт, з якого комбінує слова. За допомогою цього додатка жінка, наприклад, може надати свій голос програмі, яка озвучує текст на моніторі для її сліпого чоловіка. Шеф може записати свій командний тон на автовідповідач для підлеглих на роботі. Користувач Facebook може прослухати пост голосом його автора, а батьки, які багато часу проводять на роботі, можуть записати свої голоси на інтерактивні іграшки, що ними бавляться їхні дітлахи. Принаймні так бачить майбутнє цієї технології Ґершон Сільберт, шеф компанії VivoText з Тель-Авіва, яка займається клонуванням голосу.

VivoText вже наступного року планує випустити додаток, який дозволятиме користувачам регулювати не лише швидкість та інтонацію озвученого тексту, а навіть рівень радості чи смутку у ньому. Ліцензію на використання цієї програми VivoText планує надати американському виробнику дитячих іграшок Hasbro. Компанія хоче досягнути повністю ідентичної імітації голосу, проте у ній погоджуються, що успіхи водночас лякають і потребують запобіжних заходів. Адже, наприклад, пранкери можуть записати прокляття голосом мами і довести дитину до розпачу.

Ще більше лякає, що голос будь-якої людини можна взяти з YouTube чи будь-якого іншого ресурсу. Дослідникам з Алабамського університету на чолі з Нітешем Саксеною достатньо п’яти хвилин онлайнових записів, щоби зімітувати голос за допомогою програми FestVox. Коли ці записи використали проти біометричних голосових програм, які використовують банки для автентифікації клієнта, вони змогли обманути їх у 80% випадків. А коли їх дали послухати добровольцям протягом 90 секунд, тіне змогли відрізнити підробки у половині випадків. За словами експерта з голосових систем Джорджа Пепкуна, поява таких технологій «відкриває безмежний потенціал для дезінформації», особливо якщо їх використовують як доказ у суді. Др. Пепкун, який раніше працював як експерт із синтезу людського голосу в Лос-Аламоській національній лабораторії (військова лабораторія в Нью-Мексико), вважає, що імітація голосу матиме і військове застосування: наприклад, можна буде дезінформувати ворожі війська голосом їхнього командира.

Проти подібних дій сьогодні вже розробляють контрзаходи. Компанія Nuance Communications створює алгоритм, який розпізнаватиме крихітні коливання частоти в місцях, де мікрофрагменти голосу зшиті докупи. А розробник фотошопу Adobe закодовуватиме в сфабрикований своїм додатком VoCo штучний голос спеціальні знаки, за якими комп’ютер зможе його розпізнати. Утім, навіть попри це все, легко уявити, який хаос запанує у світі, якщо лиходії зможуть копіювати чий завгодно голос.

Imitating people’s speech patterns precisely could bring trouble
The Economist, 20.04.2017
Зреферував Євген Ланюк

28.04.2017