Big Data: недостатньо анонімні

Рей Курцвейл

За 5 років прогнозована тривалість людського життя збільшуватиметься за рік більш як на рік, до 2045 року ми підключимо наш мозок до суперкомп'ютерів. Це і буде сингулярність

16.04.2024

Нейромережева модель виявила, чому жінки і чоловіки думають по-різному.

Нова модель штучного інтелекту на понад 90% успішно визначає, належать скани мозкової активності жінці чи чоловікові.

30.03.2024

Кремль виказав 5 пунктів плану підкорення Польщі

Мирослав Чех

Навіть на піку діяльності уряду Туска саме опозиція та російські агенти визначають суттєву частину політичного порядку денного. А що ж буде, коли коаліція почне тріщати?

28.03.2024

Ви не самі. НАТО з вами. Світло переможе темряву

Роб Бауер

Вражаючий виступ голови Військового комітету НАТО адмірала Роба Бауера на Київському безпековому форумі

21.03.2024

Блокування кордону як perpetuum mobile шантажу

Мирослав Чех

Суто польський винахід: блокувати кордон атакованої Росією країни як фінансово-політичний вічний двигун.

18.03.2024

Нове дослідження підтвердило, що жива музика діє сильніше, ніж записана.

Нове дослідження підкреслює унікальну синхронізацію між музикантами та аудиторією під час живих виступів, що вказує на глибокий зв'язок, який не може відтворити записана музика, і показує еволюційну важливість живої музики

17.03.2024

Мозок "програмований" вчитися у людей, які нам подобаються

Розуміння коренів поляризації, опору до нових знань та пов'язаних з ними явищ з точки зору базових функцій мозку дає змогу глибше зрозуміти складні моделі поведінки

04.03.2024

Слово до України з-під вікна Яцека Куроня

Стоїть нас тут жменька, але ми не заспокоїмося, поки уряд вільної Польщі остаточно не розблокує польсько-український кордон.

28.02.2024

Україна. Не можемо здаватися!

500 північноамериканських та європейських діячів академічного, військового, культурного та політичного світу закликають країни Рамштайнської коаліції значно збільшити військову допомогу Україні

24.02.2024

Дивний збіг: активність Путіна і блокада кордону

Мирослав Чех

Підтримка України є найкращою інвестицією Польщі у власну безпеку, каже прем'єр-міністр Дональд Туск. Реальні дії влади, однак, говорять про інше

16.02.2024

Big Data: недостатньо анонімні

Ідентичність особи та її персональні дані навіть в анонімних базах даних можна легко пов’язати з реальними людьми, засвідчує дослідження. Більшість людей можна ідентифікувати навіть на підставі цілком легально проданих даних – незважаючи на анонімність. Для цього достатньо чотири параметри, натомість більшість баз даних містять значно більше даних про особу, повідомляють науковці в фаховому віснику Nature Communications.

Зображення: Vladimir Timofeev/ iStock.

Пошуки в Інтернеті, використання додатків або оплата кредитною карткою – майже все, що ми робимо, залишає свій інформаційний слід. Ці особисті дані часто потрапляють до третіх осіб – наприклад, самі додатки передають їх або ж зловмисники викрадають бази даних, врешті, ці дані можуть використовувати маркетингові компанії чи інші установи з науковою метою – часто навіть зовсім легально.

Бази даних – анонімні, тобто з них видаляють ім’я, номер рахунку, номер соціального страхування й подібне, тож їхнє використання та передача – дозволені. Але це породжує питання: наскільки анонімні ці дані насправді? Чи немає небезпеки, що людей ідентифікують на підставі тих даних, що збереглися? Насправді ще кілька років тому на прикладі даних кредитних краток вчені продемонстрували: це можливо – і з на диво незначною кількістю вихідних даних.

Ще масштабніший тест здійснили Люк Рочер (Luc Rocher) з Левенського університету та його колеги. Вони використали адаптивний алгоритм, аби з’ясувати, з якою імовірністю у великій кількості даних можна однозначно ідентифікувати анонімів. Як джерело даних науковці використали анонімні дані американського перепису населення та чотири інші публічно доступні бази даних.

Ключовим питанням дослідження було: скільки і які ознаки (зокрема вік, стать, місце проживання або кількість дітей) потрібно, щоб ідентифікувати людину, незважаючи на анонімність? Розроблений вченими алгоритм був натренований розпізнавати унікальність комбінації цих ознак в кожному випадку. «Напевно є чимало осіб чоловічої статі, народжених у 30–их роках ХХ століття в Нью-Йорку, – пояснив Рочер. – Але значно менше народилися 5-го січня, їздять на червоному спортивному авто, живуть з двома доньками та собакою».

Оцінювання засвідчило: всупереч обіцянкам спеціалізованих фірм і державних установ, загальноприйнятна анонімність – не перешкода для того, щоб на підставі інформаційного сліду заново визначити особу. Лише з поштовим індексом, датою народження, статтю та кількістю дітей вченим вдалося точно визначити майже 80 % всіх жителів американського штату Массачусетс, повідомили Рочер та його команда.

«І це дані, які фірми запитують за замовчуванням», – сказав співавтор Ів-Александр де Монжуа (Yves-Alexandre de Montjoye) з Імперського коледжу Лондона. Натомість з дещо ширшими 15 параметрами даних можна було правильно розпізнати вже 99,8 % всіх мешканців Массачусетса. «Це демонструє, як просто й точно можна ідентифікувати людей через такі бази даних», – наголосив Монтжуа.

Крім того, чимало цілком легально переданих баз даних містять значно більше інформації про особу: «Наприклад, брокер інформації Experian перепродав анонімні дані про 120 мільйонів американців, і вони містили 248 параметрів на кожне господарство», – повідомили вчені.

Завдяки онлайн додатку, який розробили вчені, громадяни Великої Британії та США можуть самостійно переконатися, як просто ідентифікувати їхню особу. Спочатку учасники тесту повинні зазначити свій поштовий індекс, стать і дату народження, на підставі отриманої інформації програма визначить, наскільки високий ризик для кожного бути ідентифікованим. Ці дані не зберігаються, наголошують вчені. Потім можна заповнити нові дані – сімейний статус, кількість авто, зайнятість, і програма заново вирахує ризик. На підставі цього можна легко виявити, скільки і які параметри потрібно, щоб всю множину ймовірних варіантів звести до одного – до нас самих.

На думку Рочера та його команди, визнані методики анонімізації – не достатні, щоб стерти індивідуальний інформаційний слід. «Нас часто запевняють, що анонімність захистить персональну інформацію. Але наше дослідження доводить, що цієї прострої деінтифікації не достатньо, щоб захистити приватну сферу наших даних», – сказав колега Рочера Жульєн Гендрікс (Julien Hendrickx).

Свої дослідження вчені вважають сигналом до політиків і законодавців: «Коли стандарти анонімності переглядатимуть, як це відбувається зокрема в ЄС, важливо, щоб вони були надійними і враховували нові небезпеки, зокрема ті, які ми представили», – наголосили Рочер та його колеги.

Nadja Podbregar

Big Data: Anonymisieren reicht nicht

Imperial College London, 24/07/2019

Зреферувала С. К.

27.07.2019

Робот, що пізнає своє тіло

Адаптивна машина розвинула просту форму самосприйняття та самооцінки.

21.07.2022

Сильний штучний інтелект не так близько, як може здаватися

Гарі Маркус

Придивившись ближче, з'ясуємо, що нові системи штучного інтелекту (ШІ), зокрема розрекламована Gato від компанії “DeepMind”, стикаються з тими ж проблемами, що й попередні.

22.06.2022

Валюта ХХI століття: приватні дані в цифрову добу

Діана Дуцик

Цифрова нерівність, кіберзлочинність, загальна вразливість нашого цифрового "я" – чи є місце етиці та приватності у сучасному диджіталізованому світі?

29.04.2021

Записувати на папері － краще запам’ятати

Працюючи з аналогами паперу, мозок отримує додаткову інформацію, а це допомагає краще пригадувати записане.

01.04.2021

Ми живемо в симуляції?

Науковці вирахували вірогідність сценарію «Матриці».

10.03.2021

Чи цифровий суперінтелект піддаватиметься контролю?

У майбутньому адаптивна система штучного інтелекту може виявитися некерованою з технічного погляду.

23.01.2021

Топ-10 технологій 2020 року

Попри карантин і пандемію, у 2020 році з'явилася низка перспективних технологій, які в майбутньому можуть здійснити революцію у транспорті, медицині, енергетиці та комп'ютерній галузі.

18.11.2020

Математичний аналіз повинен виявляти всі Deepfake

Можливо, науковці знайшли слабинку Deepfake. Простий математичний аналіз пікселів може виявити специфічну схему картинок, які створив штучний інтелект.

18.07.2020

Мораль: як її рахувати?

Класичну моральну дилему вирішують по-різному – залежно від країни.

28.01.2020

Об'єднані асфальтом

Вадим ГРІН

Хто ми? Ні асфальт, ні освітлення не дадуть відповіді на це питання. І патріотизм не спрацює.

16.01.2020

Пошукова форма