Прогнозування на основі біґ-дата позбавлене теорії

Кінець теорії – заявляють протагоністи біґ-дата. Це небезпечне твердження. Без розробки теорією уфондованих моделей, що можуть витримати подальше вичерпне тестування, ми не дізнаємось нічого про те, як світ направду працює.

 

 

Відома стаття Кріса Андерсона, що вийшла у Wired 2008 року, мала назву “Лавина даних робить науковий метод застарілим”. Базовий аргумент статті полягає в тому, що багато дослідників клюють на приманку великого масиву даних у поєднанні з методами прикладної математики, і це фактично заміщає весь інший інструментарій, що може придатися для обґрунтованого прогнозування в науці. З такими останніми трендами результати теорій людської поведінки явно занедбуються, не зважаючи на те, чи ці теорії ґрунтуються на психології, соціології чи економіці. Розуміти рушійні сили того, чому люди роблять те, що вони роблять, з Андерсонової перспективи розглядається просто як нецікаве. Натомість часто (однак неправильно) припускають, що достатньо спостерігати за людською поведінкою — також і тому, що можна легко відстежити і виміряти таку поведінку і записати дані щодо неї. Тоді, маючи міріади “надійних” даних, числа мають самі говорити за себе.

 

Навпаки, підхід із часів “до біґ-дата" концентрувався на розробці тестабельних гіпотез, що походять із певним чином добре обґрунтованої теорії. Згодом базовані на цих гіпотезах моделі емпірично тестують, і ці випробовування підтверджують чи спростовують призначені пояснити функціонування світу моделі. З масивом даних, потужними комп’ютерами та алгоритмами добування даних тепер є бізнес-експерти, і навіть економісти, які вірять що підхід “гіпотезуй, моделюй і врешті тестуй” щодо прогнозів швидко стає застарілим. Наприклад, Ерік Бринольфсон (Erik Brynjolfsson) та Лін Ву (Lynn Wu) наголосили на силі біґ-дата: дані пошукових систем, кажуть вони,  забезпечують простий, але точний спосіб передбачити майбутню бізнесову активність. Застосувавши ці дані для передбачення трендів ринку житла, вони дійшли висновку, що їхній індекс пошуку житла значною мірою передбачає майбутній продаж та ціни на ринку житла. Вони підсумовують, що “наноекономічні” дані транформують прогнозування і будуть мати дуже великий вплив на бізнесові стратегії і прийняття рішень споживачами.

 

Беручи до уваги ці розробки, чого чекати у майбутньому? Ми вже можемо знайти в економічних журналах численні статті, що більше не опираються ні на теорію, ні на тестабельні гіпотези, а лиш дозволяють комп’ютерам знайти кореляції в певному наперед визначеному напрямку.  Такі статті називаються, до прикладу, “Хіральність і прибутки” чи “Красиві батьки мають більше дочок”, і ці статті демонструють деякий інтуїтивно “цікавий” (проте не обов’язково “цікавий” з наукової точки зору) ефект і таким чином потрапляють в газетні заголовки.

 

У блискучому дослідженні астрологічних знаків і здоров’я Пітер Остін та інші (2006) ілюструють, як численні тестування “гіпотез” (чи — у світі добування даних — перевірок кореляцій) можна використовувати, щоби творити зв’язки  без жодної теоретичної (тут — жодної клінічної) правдоподібності. У своєму дослідженні вони використовують автоматизовані методи добування даних, щоб виявити очевидно значущі зв’язки у великому наборі даних. Вони виявили, що люди, народжені під знаком Лева, мають найвищу ймовірність шлунково-кишкових кровотеч, в той час як Стрільці — найвищу ймовірність переломів плечової кістки в порівнянні з усіма іншими знаками разом узятими.

 

У чому полягає специфічний ризик для економіки таких підходів добування даних? Припустімо, що ми можемо придумати 1000 “гіпотез” (чи, радше, гаданих кореляцій), з яких a priori лише 100 вважатимемо правдивими. Ймовірність хибно позитивних і хибно негативних результатів буде 10% і 20%. Тому навіть вичерпний аналіз приведе до коефіцієнта помилки — відношення підтверджених вагомих результатів, які виявились фальшивими, — що становитиме (1 – 80/170) = 53 %. Таким чином, що потужніші комп’ютери ми маємо і що більше даних отримуємо, то більше “гіпотез”/ “кореляцій” можна протестувати. Розглянемо тестування 100 000 “гіпотез” чи перевірку 100 000 кореляцій, припускаючи сталу (насправді дуже високу) апріорну ймовірність правдивості в 1%. Використовуючи вищенаведені припущення, ми отримаємо коефіцієнт помилки 1  – (800/10700) = 92.5 %!

 

Підсумовуючи: без розробки на теорії базованих моделей, які можуть витримати подальше ретельне тестування, ми не дізнаємось нічого про те, як влаштований світ.

 

Однак єдине, що ми знатимемо напевне: коефіцієнт помилки в добуванні даних є a priori винятково високим.

 


Посилання:

 

Austin PC, Mamdani MM, Juurlink DN, Hux JE. Testing multiple statistical hypo- theses resulted in spurious associations: a study of astrological signs and health. J Clin Epidemiol. 2006 Sep;59(9):964–9. Epub 2006 Jul 11.

 

Lynn Wu, Erik Brynjolfsson. The Future of Prediction: How Google Searches Fore- shadow Housing Prices and Sales. Chapter in NBER book Economic Analysis of the Digital Economy (2015), Avi Goldfarb, Shane Greenstein, and Catherine Tucker, editors (p. 89–118).

 

 


Thomas Ehrmann
Big Data Predictions Devoid of Theory
Economic Ideas You Should Forget [Економічні ідеї, що їх маєте забути] (березень 2017)
Зреферувала Христина Семанюк

 

 

11.05.2017