Big Data: недостатньо анонімні

Ідентичність особи та її персональні дані навіть в анонімних базах даних можна легко пов’язати з реальними людьми, засвідчує дослідження. Більшість людей можна ідентифікувати навіть на підставі цілком легально проданих даних – незважаючи на анонімність. Для цього достатньо чотири параметри, натомість більшість баз даних містять значно більше даних про особу, повідомляють науковці в фаховому віснику Nature Communications.

Зображення: Vladimir Timofeev/ iStock.

Пошуки в Інтернеті, використання додатків або оплата кредитною карткою – майже все, що ми робимо, залишає свій інформаційний слід. Ці особисті дані часто потрапляють до третіх осіб – наприклад, самі додатки передають їх або ж зловмисники викрадають бази даних, врешті, ці дані можуть використовувати маркетингові компанії чи інші установи з науковою метою – часто навіть зовсім легально.

Бази даних – анонімні, тобто з них видаляють ім’я, номер рахунку, номер соціального страхування й подібне, тож їхнє використання та передача – дозволені. Але це породжує питання: наскільки анонімні ці дані насправді? Чи немає небезпеки, що людей ідентифікують на підставі тих даних, що збереглися? Насправді ще кілька років тому на прикладі даних кредитних краток вчені продемонстрували: це можливо – і з на диво незначною кількістю вихідних даних.

Ще масштабніший тест здійснили Люк Рочер (Luc Rocher) з Левенського університету та його колеги. Вони використали адаптивний алгоритм, аби з’ясувати, з якою імовірністю у великій кількості даних можна однозначно ідентифікувати анонімів. Як джерело даних науковці використали анонімні дані американського перепису населення та чотири інші публічно доступні бази даних.

Ключовим питанням дослідження було: скільки і які ознаки (зокрема вік, стать, місце проживання або кількість дітей) потрібно, щоб ідентифікувати людину, незважаючи на анонімність? Розроблений вченими алгоритм був натренований розпізнавати унікальність комбінації цих ознак в кожному випадку. «Напевно є чимало осіб чоловічої статі, народжених у 30–их роках ХХ століття в Нью-Йорку, – пояснив Рочер. – Але значно менше народилися 5-го січня, їздять на червоному спортивному авто, живуть з двома доньками та собакою».

Оцінювання засвідчило: всупереч обіцянкам спеціалізованих фірм і державних установ, загальноприйнятна анонімність – не перешкода для того, щоб на підставі інформаційного сліду заново визначити особу. Лише з поштовим індексом, датою народження, статтю та кількістю дітей вченим вдалося точно визначити майже 80 % всіх жителів американського штату Массачусетс, повідомили Рочер та його команда.

«І це дані, які фірми запитують за замовчуванням», – сказав співавтор Ів-Александр де Монжуа (Yves-Alexandre de Montjoye) з Імперського коледжу Лондона. Натомість з дещо ширшими 15 параметрами даних можна було правильно розпізнати вже 99,8 % всіх мешканців Массачусетса. «Це демонструє, як просто й точно можна ідентифікувати людей через такі бази даних», – наголосив Монтжуа.

Крім того, чимало цілком легально переданих баз даних містять значно більше інформації про особу: «Наприклад, брокер інформації Experian перепродав анонімні дані про 120 мільйонів американців, і вони містили 248 параметрів на кожне господарство», – повідомили вчені.

Завдяки онлайн додатку, який розробили вчені, громадяни Великої Британії та США можуть самостійно переконатися, як просто ідентифікувати їхню особу. Спочатку учасники тесту повинні зазначити свій поштовий індекс, стать і дату народження, на підставі отриманої інформації програма визначить, наскільки високий ризик для кожного бути ідентифікованим. Ці дані не зберігаються, наголошують вчені. Потім можна заповнити нові дані – сімейний статус, кількість авто, зайнятість, і програма заново вирахує ризик. На підставі цього можна легко виявити, скільки і які параметри потрібно, щоб всю множину ймовірних варіантів звести до одного – до нас самих.

На думку Рочера та його команди, визнані методики анонімізації – не достатні, щоб стерти індивідуальний інформаційний слід. «Нас часто запевняють, що анонімність захистить персональну інформацію. Але наше дослідження доводить, що цієї прострої деінтифікації не достатньо, щоб захистити приватну сферу наших даних», – сказав колега Рочера Жульєн Гендрікс (Julien Hendrickx).

Свої дослідження вчені вважають сигналом до політиків і законодавців: «Коли стандарти анонімності переглядатимуть, як це відбувається зокрема в ЄС, важливо, щоб вони були надійними і враховували нові небезпеки, зокрема ті, які ми представили», – наголосили Рочер та його колеги.

Nadja Podbregar

Big Data: Anonymisieren reicht nicht

Imperial College London, 24/07/2019

Зреферувала С. К.

27.07.2019