Біґ-дата - це велика відповідальність

 

Навколо біґ-дата багато галасу. Здатність маніпулювати великими обсягами інформації з надсвітловою швидкістю змінює умови ведення бізнесу у всьому світі. Але, як і з усіма технологіями, в біґ-дата є ризики. Усі користувачі цієї технології повинні усвідомити: біґ-дата - це велика відповідальність.

 

Недавнє дослідження, яке я провів спільно з колегами, доводить можливість створення миттєвих та на диво докладних психодемографічних профілів користувачів Facebook - таких, що містять статистично валідну інформацію про расу користувача, його особистість, бали IQ, задоволення від життя, вживання психоактивних речовин, сексуальну орієнтацію, політичні погляди та релігійні переконання – лише за допомогою публічно доступних даних про лайки ("вподобання") на Facebook.

 

Якщо у вас є дані, то побудова моделі, яка буде оновлюватися автоматично, є простою справою. Ми використовували лайки та особисті якості, витягнуті з 58000 профілів користувачів Facebook, та оцінені за нашим власним запитальником - і в нас не було підстав вважати, що результати є нерепрезентативними.

 

Наші прогнози не залежали від невеликих вибірок очевидних лайків. Хоча інтерес до науки пов'язують з вищим рівнем інтелекту, інтерес до картоплі фрі у вигляді спіральок чи захоплення голосом Морґана Фрімена так само дають певну інформацію. Аúрегація тисяч таких підказок може привести до переконливих висновків на рівні окремої особи.

 

Facebook - це лише початок. Лайки - це лише один з прикладів родового класу цифрових записів, на підставі яких можна робити прогнози, таких як твіти, повідомлення електронної пошти, пошукові запити, історії перегляду сторінок, транзакції кредитними картками, закупи як в інтернеті, так і у реальному світі.

 

Як і будь-якою великою технологією, цим потенціалом прогнозування можна скористатися як з добрими намірами, так і з поганими.

 

Швидка та автоматизована психометрична оцінка кандидатів могла б радикально змінити рекрутинг. Чому б не оцінювати, мільйони кандидатів за їхньою ж згодою, перш ніж запрошувати кількох на співбесіду? Це могло б допомогти заощадити час і гроші як для рекрутерів, так і кандидатів. Чому б автоматично не підлаштовувати продукти та послуги під профіль споживача? Уявіть собі, як FT пропонуватиме для вас статті на своєму веб-сайті, виходячи з даних про вашу особистість та настрій. Пошуковий запит "nights out in London" [вечірки у Лондоні або прогулянки вечірнім Лондоном - Z] міг би дати різні результати відкритим екстравертами та консервативним інтровертам.

 

Існує, звичайно, й інший бік справи. Хоча й персоналізоване націлювання реклами можуть вважати корисним як для споживачів, так і рекламодавців, зміщення балансу на користь останніх може привести до маніпулювання споживачами. Емоційно нестійкого покупця можуть підштовхнути до придбання непотрібного йому страхового полісу, спираючись на дані про його психологічний стан. Передбачуваність певних рис характеру може навіть виявитися небезпечною для окремих осіб. Вже зараз можна викрити сексуальну орієнтацію або релігійні погляди користувача, ставлячи під загрозу його безпеку - і не лише у менш ліберальних країнах.

 

Усвідомлення того, що плейлисти, історія закупів та лайки можуть бути використані для виявлення такої великої кількості речей, може відлякати багатьох людей від користування інтернетом. Я не думаю, що відмова від користування цифровими технологіями буде добрим явищем - як для самих користувачів, так і для економіки. У прогнозуванні індивідуальних психодемографічних характеристик та вподобань людей є величезний потенціал. Я не політик, але вважаю, що ми повинні розробити такі заходи та інструменти, щоб мінімізувати пов'язані з таким прогнозуванням ризики. Ми повинні керуватися двома засадами: прозорістю та контролем.

 

По-перше, ми повинні допомогти користувачам зрозуміти, які з їхніх особистих даних є загальнодоступними, як їх використовують і як ними можуть скористатися. По-друге, ми повинні надати користувачам можливість повного контролю над своїми даними і здатність вирішувати, як їх можна використовувати. Обидва аспекти можуть мати свої технологічні рішення, але вони також вимагають високої свідомості самих користувачів та відповідних правових механізмів.

 

Користувачі повинні мати повний контроль над даними, на підставі яких можна зробити ці висновки. Користувачі зараз, загалом, погоджуються з тими, що їхні дані зберігають треті сторони - корпорації та уряди. Але чи саме так і має бути? Уявіть соціальну мережу або інтернет-магазин, який не зберігає лайків чи історію закупів. Вони надійно зберігаються на вашому комп'ютері або в особистому хмарковому акаунті. Прогнози все одно ще можна буде робити, але під контролем самих людей, даючи їм змогу схвалити отримані висновки щодо своєї особистості.

 

Мені подобається Facebook. Це справді чудова технологічна машина, яка об'єднує людей. Я хочу допомогти гарантувати усім, що ми зможемо і надалі користуватися нею, знаючи, що особиста інформація є надійно захищеною.

 


Міхал Косінскі - дослідник Центру психометрики Кембриджського університету. Співавтор дослідження психодемографічніх характеристик користувачів Facebook разом з Девідом Стілвелом з Центру психометрики та Торе Ґрепель з Microsoft Research


Michal Kosinski
With big data comes big responsibility
The Financial Times, 15.03.2013
Зреферував Омелян Радимський

25.03.2013