Друкарня від WE.UA

ШІ навчився деанону: як великі мовні моделі розкривають особистість у мережі

Мільйони людей щодня публікують повідомлення в інтернеті під псевдонімами, вважаючи, що анонімність убезпечує їх від ідентифікації. Нове дослідження вчених з ETH Zurich за участі дослідника Anthropic Ніколаса Карліні підриває цю впевненість: великі мовні моделі (ШІ) здатні автоматично встановлювати особи користувачів у масштабі, що раніше вимагав тижнів ручної роботи слідчих.

Автори роботи, опублікованої в лютому 2026 року, протестували агентів на базі ШІ на реальних профілях платформ Hacker News, LinkedIn та Reddit. У найкращих сценаріях системі вдавалося правильно ідентифікувати до 67% цільових осіб при точності 90%. Для порівняння: класичні методи деанонімізації без ШІ в аналогічних умовах давали точність, близьку до нуля.

Як працює система деанонімізації на базі ШІ

Дослідники розробили чотириетапний конвеєр, який вони назвали ESRC (від англійських слів Extract — Search — Reason — Calibrate):

Витяг (Extract). Мовна модель аналізує неструктурований текст публікацій та коментарів користувача — демографічні дані, стиль письма, інтереси, випадкові згадки місць роботи чи навчання, регіональні мовні особливості. Усе це перетворюється на структурований профіль.

Пошук (Search). Складений профіль перетворюється на щільний математичний вектор (embedding), за яким система здійснює пошук серед десятків тисяч кандидатів. Технологія семантичного пошуку дозволяє знайти найбільш схожі профілі навіть без точного збігу слів.

Аналіз (Reason). ШІ зіставляє топ-кандидатів із початковим псевдонімним профілем, аналізує збіги та суперечності. Для найбільш перспективного кандидата залучається потужніша модель із розширеними можливостями міркування.

Калібрування (Calibrate). Система присвоює кожному збігу показник впевненості, що дозволяє регулювати баланс між точністю і повнотою охоплення — тобто визначати, скільки помилкових ідентифікацій допустимо заради більшого охоплення.

Конкретні результати експериментів

Дослідники провели три серії тестів на реальних даних. У першій серії агент ШІ отримував псевдонімні профілі користувачів Hacker News та самостійно шукав їхні справжні особи в інтернеті. Зі 338 цільових осіб він правильно ідентифікував 226 (67%) при точності 90%. Агент самостійно здійснював пошукові запити, зіставляв дані з різних джерел та формулював висновки — весь процес, який досвідчений слідчий виконував би годинами, займав кілька хвилин.

Особливо резонансним став епізод з датасетом Anthropic Interviewer — збіркою транскриптів 125 розмов учених про використання ШІ у роботі. Система ідентифікувала 9 з 33 перевірених учасників (27%) при точності 82%, не маючи доступу до жодних прямих ідентифікаторів — лише до тексту розмов про дослідницьку роботу.

У другій серії тестів завдання ускладнилося: потрібно було знайти відповідність між псевдонімними акаунтами Hacker News та LinkedIn-профілями реальних людей серед пулу з 89 000 кандидатів. Метод з використанням ШІ-аналізу досяг показника 45% правильних збігів при точності 99% — проти 0,1% для найкращого класичного методу без ШІ.

У третій серії система зіставляла окремих користувачів Reddit між різними тематичними спільнотами та між різними часовими проміжками. Навіть коли між двома половинами профілю одного користувача був рік мовчання, ШІ зміг правильно пов’язати їх у 67% випадків при точності 90%.

Чому ШІ настільки ефективний у деанонімізації

Сила нового підходу — не в надлюдських можливостях, а в масштабі та вартості. Дослідники підкреслюють: сигнали, які використовує ШІ, ті самі, що помітив би досвідчений детектив. Різниця в тому, що людський слідчий може витратити години на один профіль, тоді як система ШІ обробляє тисячі профілів за той самий час при вартості від $1 до $4 за аналіз.

Ключову роль відіграє “мікродані” — дрібні деталі, які самі по собі не ідентифікують людину, але у сукупності стають унікальним відбитком. Регіональна вимова у написанні, специфічна термінологія певної галузі, згадки місцевих закладів, улюблені теми — усе це ШІ навчився збирати та аналізувати так, як жоден алгоритм раніше не міг.

Зростання рівня міркування моделі напряму впливає на ефективність. Дослідники порівнювали результати одного й того самого ШІ при різних рівнях “розмірковування”: режим із розширеним аналізом давав удвічі кращі результати на найскладніших завданнях.

Масштаб загрози та можливі зловживання

Автори дослідження відверто перераховують можливі сценарії зловживань. Уряди можуть пов’язувати псевдонімні акаунти з реальними особами для стеження за опозиціонерами, журналістами чи активістами. Корпорації можуть з’єднувати анонімні відгуки на форумах із профілями клієнтів для гіперцільової реклами. Зловмисники можуть будувати детальні портрети жертв для персоналізованих шахрайств і атак соціальної інженерії.

Система не потребує спеціального обладнання чи привілейованого доступу. Для її відтворення достатньо загальнодоступних API мовних моделей та стандартних бібліотек для векторного пошуку. Як зазначають дослідники, атака вже сьогодні доступна будь-якому технічно підготовленому зловмиснику.

Математичні моделі, побудовані на основі отриманих даних, свідчать, що навіть при розширенні пулу кандидатів до мільйона осіб ефективна атака зберігає близько 35–45% успішності при точності 90%. При 100 мільйонах кандидатів прогнозована ефективність знижується до 27%, але не до нуля.

Як захиститися: обмежені можливості

Дослідники чесно визнають: надійних засобів захисту наразі не існує. Сам контент, який робить онлайн-спільноти цінними — особисті думки, специфічні знання, унікальний досвід — є тим самим матеріалом, що уможливлює деанонімізацію.

Серед часткових заходів протидії автори називають обмеження швидкості запитів до API платформ, виявлення автоматизованого збору даних та обмеження масового експорту. Постачальники ШІ-сервісів могли б моніторити підозрілі шаблони використання моделей. Покращені захисні фільтри, що змушують моделі відмовляти в деанонімізаційних запитах, теоретично можуть допомогти, хоча розробники скептичні: їхній конвеєр розбиває атаку на нешкідливо виглядаючі підзадачі — реферування профілів, обчислення векторів схожості, ранжування кандидатів.

Класичні методи анонімізації — k-анонімність та диференційна приватність — були розроблені для структурованих баз даних і не враховують описаних атак. Навіть спеціалізовані ШІ-інструменти для анонімізації тексту залишають достатньо семантичних слідів для повторної ідентифікації, як показали паралельні дослідження.

Етичні рамки дослідження

Розробники усвідомлювали чутливість своєї роботи. Усі експерименти проводилися виключно на профілях, де дослідники могли встановити справжню особу незалежно — або через публічне самовикриття, або через синтетичне розщеплення одного профілю на два. Жодна справді псевдонімна особа не була деанонімізована в межах дослідження. Код атаки та оброблені датасети не публікуються.

Рішення про публікацію автори обґрунтовують тим, що описані можливості вже існують у загальнодоступних моделях. Замовчування загрози залишило б користувачів необізнаними та незахищеними. Дослідження отримало схвалення Комітету з етики ETH Zurich.

Висновок: час переосмислити приватність в інтернеті

Результати дослідження ставлять під сумнів фундаментальне припущення, на якому ґрунтується анонімне та псевдонімне спілкування в інтернеті: що деанонімізація є теоретично можливою, але практично надто дорогою для масового застосування. ШІ скасував цю економічну перепону.

Для українських користувачів, чиї активістські, журналістські чи волонтерські акаунти можуть становити інтерес для ворожих спецслужб, ця зміна є особливо актуальною. Псевдонім більше не гарантує безпеки — це варто враховувати при оцінці власних ризиків і вирішенні, яку інформацію розкривати навіть в «анонімних» публікаціях.

Платформи, дослідники та регулятори мають терміново переосмислити політики доступу до даних, норми приватності та технічні засоби захисту. За словами авторів, «практична непрозорість, яка тривалий час захищала псевдонімних користувачів в інтернеті, більше не діє».

Статті про вітчизняний бізнес та цікавих людей:

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Cybercalm
Cybercalm@cybercalm we.ua/cybercalm

Кібербезпека простою мовою

77Довгочити
999Прочитання
17Підписники
На Друкарні з 15 листопада

Більше від автора

Це також може зацікавити:

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Це також може зацікавити: