Луїс фон Ан допоміг врятувати інтернет від спамерів. Справою його життя є пошуки продуктивного застосування рутинним операціям в інтернеті

 

Лише через декілька тижнів після вступу до аспірантури і лише у віці 22 років, Луїс фон Ан допоміг подолати одну з найскладніших проблем, що мучила мережу. Це був 2000 рік, і безкоштовні веб-сервіси електронної пошти переживали період бурхливого зростання. Але спамери автоматично створювали тисячі акаунтів і використовували їх, щоб відправляти пачками повідомлення. Коли акаунти закривали, вони просто створювали нові. Водночас, сайтам, що продавали квитки на концерти і спортивні заходи, дошкуляли програми, що засипали їх замовленнями, скуповуючи найкращі місця для перепродажу за вищою ціною. Сайтам треба було навчитися відрізняти відвідувачів-людей та ботів.

 

Луїс фон Ан лише вступив в аспірантуру Університету Карнегі-Меллона у Піттсбурзі, коли він та його науковий керівник Мануель Блюм вигадали потрібний метод. Рішення повинно було відповідати трьом вимогам: воно повинно було бути тестом, який легко могли пройти люди, але не комп'ютери - і щоб воно могло використовувати комп'ютери для того, щоб визначити, чи відповідь була правильною. Первісна ідея полягала у демонстрації користувачам інтернету зображення, наприклад, кота чи американської гірки, з проханням ідентифікувати його. Правильна відповідь означала б, що істота на іншому кінці інтернет-з'єднання дійсно є людиною, і вона отримувала б доступ до веб-пошти чи сайту з квитками. Але виявилося, що люди не надто добре вміють розпізнавати зображення.

 

Тож ця пара вчених дійшла до іншої ідеї: вони показували людям послідовність зі спотворених літер і просили їх прочитати її та ввести у поле для тексту. Це виявилося набагато надійнішою перевіркою, чи є відвідувач сайту людиною (за термінологією інформатиків така перевірка відома також як тест Т'юрінґа, названий на честь Алана Т'юрінґа, британського вченого у галузі інформатики). Результатом став тест CAPTCHA, що розшифровується як “Completely Automated Public Turing test to tell Computers and Humans Apart” ["цілком автоматизований публічний тест Т'юрінґа для розрізнення комп'ютерів та людей"]. Yahoo та інші провайдери веб-пошти впровадила цю систему, і вона відразу ж ускладнила життя спамерам.

 

Луїс фон Ан продовжив дослідження і отримав свій диплом доктора філософії, а також телефонний дзвінок від Білла Ґейтса з Microsoft з пропозицією роботи, яку він відхилив. Відтоді він створив низку онлайн-систем, які зводять разом багато людей задля виконання корисної роботи, ділячи завдання на дрібні шматки, що їх часто представляють як прості тести або гру, і збираючи дані. Десять років тому Луїс фон Ан назвав свій підхід "людино-орієнтованою обробкою даних" [human computing] (назва його дисертації) та "іграми з певною метою" - передвісниками сучасних методів "краудсорсингу" та "гейміфікації".

 

Наприклад, він зауважив, що пошукові системи погано шукають зображення, тому що фото на веб-сторінках рідко позначають точними підписами. Тож він створив “гру в екстрасенсорне сприйняття” (ESP Game), у якій двом гравцям у різних місцях одночасно показують те саме зображення у їхніх браузерах, і просять ввести слова, що описують те, що на зображене. Кожен раунд гри закінчується, коли обидва гравці використовують те саме слово, так що метою є використання найбільш очевидних описових термінів. При цьому, гравці позначають кожне зображення тегами та вказують, які слова його найкраще описують. Технологія була придбана Google у 2005 році, щоб вдосконалити позначення зображень для пошукової системи. А може пограємо?

 

Луїс фон Ан народився у Гватемалі у сім'ї двох лікарів. На комп'ютери він натрапив випадково. У середині 1980-х, у віці восьми років, він хотів грати у відеоігри. Але замість того, щоб подарувати йому ігрову консоль Nintendo, мати купила йому комп'ютер. Щоб грати на ньому в ігри, він набирав програми з комп'ютерних журналів і працював над зламом схем захисту від копіювання ігор, які продавали на дискетах. У дитинстві Луїс проводив також якийсь час на кондитерській фабриці, що належала його родині. Він був зачарований машинами, які виготовляли та загортали цукерки, і незабаром почав розбирати та складати їх. Його любов до інженерної справи жива досі, але не любов до солодощів. "Мені доводилося грати там весь час - але тепер я терпіти не можу смаку м'яти", - каже він.

 

У Гватемалі майже всі учні проходять тестування перед вступом до старшої середньої школи. 20 найкращих учнів зі всієї країни, серед яких був і фон Ан, відправляють до спеціальної школи. Далі він поїхав вивчати математику до Америки, в Університеті Д'юка, змінивши її на інформатику в аспірантурі, тому що остання була більш практичною. «Ви говорите з математиком, а він каже вам, що він один з трьох людей у світі, що розуміють проблему, і її не можуть розв'язати протягом 200 років, - каже фон Ан. - А інформатик: "Вчора я розв'язав відкриту математичну проблему"».

 

Наприкінці 2006 року фон Ан лише почав викладати в Університеті Карнегі-Меллона, коли йому задзвонили з Фундації МакАртурів та поінформували, що він отримав один з її найбажаніших грантів для "геніїв" у розмірі 500 тис. доларів. Приблизно у той самий час він провів спрощені розрахунки, щоб отримати уявлення про популярність CAPTCHA, і усвідомив, що близько 200 млн. зігнутих та покручених слів щодня розпізнають та вводять на своїх комп'ютерах користувачі інтернету у всьому світі. Якщо на одне слово йде близько десяти секунд, то щодня на введення слів у CAPTCHA йде близько півмільйона годин на день. Це поліпшило безпеку в інтернеті, але за рахунок того, що люди були змушені виконувати завдання, результати якого негайно знищувалися. Безперечно, одержувач гранту для геніїв може знайти спосіб, що зробить їхні зусилля більш продуктивними?

 

По дорозі додому із зустрічі у столичному Вашингтоні, у його синьому Volkswagen Golf, його вразила ідея. Замість того, щоб показувати користувачам випадковий набір літер, чому б не показувати їм слова зі сканованих старих текстів, які не можуть зрозуміти системи автоматизованого оцифрування документів, що ґрунтуються на технології оптичного розпізнавання символів? Такі слова були, за визначенням, незрозумілими для комп'ютерів, але їх можуть прочитати люди. Їх можна було б показувати людям замість старого CAPTCHA-тесту, тепер вже з двома словами. Одне з них, контрольне, є відомим словом, а інше - це нерозбірливе слово з відсканованого документа. Користувач читає і вводить два слова, отримуючи доступ, якщо контрольне слово було прочитано та введено правильно. І коли кілька користувачів окремо дають ту саму інтерпретацію нерозбірливого відсканованого слова, ця інтерпретація потрапляє до системи оцифрування.

 

У такий спосіб людей, що проходять тест задля безпеки в інтернеті, таким чином можна змусити працювати над оцифруванням старих книжок і газет, і вони навіть не будуть цього усвідомлювати. Луїс фон Ан назвав свою нову ідею reCAPTCHA, і, коли The New York Times почала використовувати цю технологію для оцифрування свого архіву, він створив для неї окрему компанію. У 2009 році вона теж була придбана Google, для використання у її амбітному проекті з оцифрування книжок. (Гасло reCAPTCHA звучить так: "Зупини спам, читай книжки".) Луїс фон Ан працював на інтернет-велета протягом року. Парадоксально, але одне з його завдань у той час у Google полягало у закритті "гри в екстрасенсорне сприйняття" (ESP game). Вона досягла своєї мети, позначивши достатню кількість фото й малюнків, щоб натренувати систему розпізнавання зображень, яка ґрунтується на штучному інтелекті, що потім могла б виконувати завдання автоматично.

 

Після цього проекту були й інші. Verbosity, наприклад, змусила гравців створити підбірку банальних фактів, таких, як "молоко є білим", які відомі людям, але не комп'ютерам. Але жоден з інших проектів фон Ана не наблизився до reCAPTCHA, якщо йдеться про виконання корисної роботи. Тепер система обробляє 100 млн. слів на день, що є еквівалентом 200 млн. книжок на рік. Якби Google платила людям мінімальну заробітну плату у США за те, що вони читають та вводять ті нерозбірливі слова, це коштувало б компанії близько $500 млн. на рік.

 

Хоча й фон Ану лише трохи більше 30, він вже зробив унікальний внесок в інформатику та науку про штучний інтелект завдяки використанню того, що він називає "об'єднаним потенціалом людей і комп'ютерів задля розв'язання проблем, які було б неможливо і першим, і другим розв'язати самостійно". Простіше кажучи, його ідея полягає, як він каже, у "знаходженні того, що вже відбувається, і намаганні отримати ще якусь вигоду з неї". Його праці використовують здатність інтернету скорочувати витрати на координацію та транзакційні витрати, так щоб можна було ефективно об'єднувати зусилля сотень мільйонів людей. Луїс фон Ан вважає, що понад 1 мільярд людей допомогають оцифровувати друковані видання за допомогою reCAPTCHA. Знайдено у перекладі

 

Поняття "людських обчислень" породило власну галузь науки. Але чи дійсно фон Ан мав намір отримати корисні результати від виконання рутинних завдань, чи він просто винайшов це поняття, коли працював над CAPTCHA, і потім застосував його в інших сферах? "Обидва пояснення частково є правильними", - каже він. Нещодавно він знайшов план зі створення енергетичної компанії, який розробив ще у віці 13 років і який зберегла його мати, що передбачав відкриття безкоштовного тренажерного залу і вироблення електроенергії завдяки зусиллям людей, що підійматимуть штанги, крутитимуть педалі на велотренажері тощо. Цей план був, як він тепер усвідомлює, передвісником його роботи у сфері інформатики, що намагається знайти вигоди у розумовій діяльності людини.

 

Луїс фон Ан отримав чимало премій, зокрема й премію Президента за видатні досягнення у науці. В нього є ціла купа патентів, виданих на його ім'я. Його старий синій Volkswagen поступився синьому Porsche. І він надалі застосовувати свій особливий підхід до нових проблем. Його останній проект є компанією, яку він заснував з партнерами минулого року - Duolingo. Вона допомагає людям вивчити іноземну мову (під час гри), а також надає послуги з перекладу (корисна робота). Людям показують слово або фразу, які вони намагаються якомога краще перекласти, а інші потім голосують за найкращий переклад. Duolingo вже має 3 млн. користувачів, які використовують його в середньому протягом 30 хвилин на день.

 

Хоча й зовні сервіс схожий на reCAPTCHA, Duolingo знаменує собою подальший розвиток моделі фон Ана, тому що також використовує "біґ-дата". Компанія збирає величезні обсяги даних і проводить експерименти, щоб визначити, які методи є найкращими у вивченні нової мови. Наприклад, чи слід комусь вчити прикметники до прислівників? Навіть експерти цього не знають, тому що ніколи ще не проводили великомасштабних емпіричних досліджень. Завдяки Duolingo тепер є такі експерименти. Серед його перших висновків є теза, що найкращий спосіб викладання іноземної мови залежить від рідної мови студента. Викладачі англійської мови, наприклад, зазвичай, рано знайомлять студентів із займенниками, такими як "him" (його, від нього), "her" (її, від неї) та "it" (воно, його, до нього). Але це може дезорієнтувати іспаномовних студентів, у мові яких немає відповідника для займенника "it". Рішення полягає у відкладенні знайомства із займенником "it", завдяки чому користувачі Duolingo менш будуть схильні до припинення вивчення англійської мови через відчай. Луїс фон Ан сподівається застосувати цей метод - використання даних для педагогічних інновацій - і в інших дисциплінах.

 

"Здається, що освіта повинна бути вирівнювачем можливостей, але насправді вона не є ним, - каже він. - Якщо у вас є гроші, ви можете отримати добру освіту, а якщо грошей немає - то ні". Він сам бачив, які наслідки може мати доступ до якісної освіти, і хоче скористатися технологіями, щоб зробити її більш доступною. Він усвідомлює, що це набагато більш амбітна мета, ніж захист від спаму чи допомога у скануванні книжок, хоч і вони теж є важливими. Але одна нитка ясно пронизує всі його праці, навіть коли він намагається застосувати свій підхід до розв'язання серйозніших суспільних проблем, а не лише технічних. Незалежно від того, чи люди проводять свій час у тренажерному залі, чи входять у скриньку своєї електронної пошти або ж вивчають нову мову, він хоче, щоб вони могли "робити щось корисне - і використовувати енергію, яку вони генерують".


Harnessing human computation
The Economist, 01.06.2013
Зреферував Омелян Радимський

25.06.2013