Кібербезпека простою мовою

ШІ навчився деанону: як великі мовні моделі розкривають особистість у мережі

10 березня 9 хв читати

Мільйони людей щодня публікують повідомлення в інтернеті під псевдонімами, вважаючи, що анонімність убезпечує їх від ідентифікації. Нове дослідження вчених з ETH Zurich за участі дослідника Anthropic Ніколаса Карліні підриває цю впевненість: великі мовні моделі (ШІ) здатні автоматично встановлювати особи користувачів у масштабі, що раніше вимагав тижнів ручної роботи слідчих.

Автори роботи, опублікованої в лютому 2026 року, протестували агентів на базі ШІ на реальних профілях платформ Hacker News, LinkedIn та Reddit. У найкращих сценаріях системі вдавалося правильно ідентифікувати до 67% цільових осіб при точності 90%. Для порівняння: класичні методи деанонімізації без ШІ в аналогічних умовах давали точність, близьку до нуля.

Як працює система деанонімізації на базі ШІ

Дослідники розробили чотириетапний конвеєр, який вони назвали ESRC (від англійських слів Extract — Search — Reason — Calibrate):

Витяг (Extract). Мовна модель аналізує неструктурований текст публікацій та коментарів користувача — демографічні дані, стиль письма, інтереси, випадкові згадки місць роботи чи навчання, регіональні мовні особливості. Усе це перетворюється на структурований профіль.

Пошук (Search). Складений профіль перетворюється на щільний математичний вектор (embedding), за яким система здійснює пошук серед десятків тисяч кандидатів. Технологія семантичного пошуку дозволяє знайти найбільш схожі профілі навіть без точного збігу слів.

Аналіз (Reason). ШІ зіставляє топ-кандидатів із початковим псевдонімним профілем, аналізує збіги та суперечності. Для найбільш перспективного кандидата залучається потужніша модель із розширеними можливостями міркування.

Калібрування (Calibrate). Система присвоює кожному збігу показник впевненості, що дозволяє регулювати баланс між точністю і повнотою охоплення — тобто визначати, скільки помилкових ідентифікацій допустимо заради більшого охоплення.

Конкретні результати експериментів

Дослідники провели три серії тестів на реальних даних. У першій серії агент ШІ отримував псевдонімні профілі користувачів Hacker News та самостійно шукав їхні справжні особи в інтернеті. Зі 338 цільових осіб він правильно ідентифікував 226 (67%) при точності 90%. Агент самостійно здійснював пошукові запити, зіставляв дані з різних джерел та формулював висновки — весь процес, який досвідчений слідчий виконував би годинами, займав кілька хвилин.

Особливо резонансним став епізод з датасетом Anthropic Interviewer — збіркою транскриптів 125 розмов учених про використання ШІ у роботі. Система ідентифікувала 9 з 33 перевірених учасників (27%) при точності 82%, не маючи доступу до жодних прямих ідентифікаторів — лише до тексту розмов про дослідницьку роботу.

У другій серії тестів завдання ускладнилося: потрібно було знайти відповідність між псевдонімними акаунтами Hacker News та LinkedIn-профілями реальних людей серед пулу з 89 000 кандидатів. Метод з використанням ШІ-аналізу досяг показника 45% правильних збігів при точності 99% — проти 0,1% для найкращого класичного методу без ШІ.

У третій серії система зіставляла окремих користувачів Reddit між різними тематичними спільнотами та між різними часовими проміжками. Навіть коли між двома половинами профілю одного користувача був рік мовчання, ШІ зміг правильно пов’язати їх у 67% випадків при точності 90%.

Чому ШІ настільки ефективний у деанонімізації

Сила нового підходу — не в надлюдських можливостях, а в масштабі та вартості. Дослідники підкреслюють: сигнали, які використовує ШІ, ті самі, що помітив би досвідчений детектив. Різниця в тому, що людський слідчий може витратити години на один профіль, тоді як система ШІ обробляє тисячі профілів за той самий час при вартості від $1 до $4 за аналіз.

Ключову роль відіграє “мікродані” — дрібні деталі, які самі по собі не ідентифікують людину, але у сукупності стають унікальним відбитком. Регіональна вимова у написанні, специфічна термінологія певної галузі, згадки місцевих закладів, улюблені теми — усе це ШІ навчився збирати та аналізувати так, як жоден алгоритм раніше не міг.

Зростання рівня міркування моделі напряму впливає на ефективність. Дослідники порівнювали результати одного й того самого ШІ при різних рівнях “розмірковування”: режим із розширеним аналізом давав удвічі кращі результати на найскладніших завданнях.

Масштаб загрози та можливі зловживання

Автори дослідження відверто перераховують можливі сценарії зловживань. Уряди можуть пов’язувати псевдонімні акаунти з реальними особами для стеження за опозиціонерами, журналістами чи активістами. Корпорації можуть з’єднувати анонімні відгуки на форумах із профілями клієнтів для гіперцільової реклами. Зловмисники можуть будувати детальні портрети жертв для персоналізованих шахрайств і атак соціальної інженерії.

Система не потребує спеціального обладнання чи привілейованого доступу. Для її відтворення достатньо загальнодоступних API мовних моделей та стандартних бібліотек для векторного пошуку. Як зазначають дослідники, атака вже сьогодні доступна будь-якому технічно підготовленому зловмиснику.

Математичні моделі, побудовані на основі отриманих даних, свідчать, що навіть при розширенні пулу кандидатів до мільйона осіб ефективна атака зберігає близько 35–45% успішності при точності 90%. При 100 мільйонах кандидатів прогнозована ефективність знижується до 27%, але не до нуля.

Як захиститися: обмежені можливості

Дослідники чесно визнають: надійних засобів захисту наразі не існує. Сам контент, який робить онлайн-спільноти цінними — особисті думки, специфічні знання, унікальний досвід — є тим самим матеріалом, що уможливлює деанонімізацію.

Серед часткових заходів протидії автори називають обмеження швидкості запитів до API платформ, виявлення автоматизованого збору даних та обмеження масового експорту. Постачальники ШІ-сервісів могли б моніторити підозрілі шаблони використання моделей. Покращені захисні фільтри, що змушують моделі відмовляти в деанонімізаційних запитах, теоретично можуть допомогти, хоча розробники скептичні: їхній конвеєр розбиває атаку на нешкідливо виглядаючі підзадачі — реферування профілів, обчислення векторів схожості, ранжування кандидатів.

Класичні методи анонімізації — k-анонімність та диференційна приватність — були розроблені для структурованих баз даних і не враховують описаних атак. Навіть спеціалізовані ШІ-інструменти для анонімізації тексту залишають достатньо семантичних слідів для повторної ідентифікації, як показали паралельні дослідження.

Етичні рамки дослідження

Розробники усвідомлювали чутливість своєї роботи. Усі експерименти проводилися виключно на профілях, де дослідники могли встановити справжню особу незалежно — або через публічне самовикриття, або через синтетичне розщеплення одного профілю на два. Жодна справді псевдонімна особа не була деанонімізована в межах дослідження. Код атаки та оброблені датасети не публікуються.

Рішення про публікацію автори обґрунтовують тим, що описані можливості вже існують у загальнодоступних моделях. Замовчування загрози залишило б користувачів необізнаними та незахищеними. Дослідження отримало схвалення Комітету з етики ETH Zurich.

Висновок: час переосмислити приватність в інтернеті

Результати дослідження ставлять під сумнів фундаментальне припущення, на якому ґрунтується анонімне та псевдонімне спілкування в інтернеті: що деанонімізація є теоретично можливою, але практично надто дорогою для масового застосування. ШІ скасував цю економічну перепону.

Для українських користувачів, чиї активістські, журналістські чи волонтерські акаунти можуть становити інтерес для ворожих спецслужб, ця зміна є особливо актуальною. Псевдонім більше не гарантує безпеки — це варто враховувати при оцінці власних ризиків і вирішенні, яку інформацію розкривати навіть в «анонімних» публікаціях.

Платформи, дослідники та регулятори мають терміново переосмислити політики доступу до даних, норми приватності та технічні засоби захисту. За словами авторів, «практична непрозорість, яка тривалий час захищала псевдонімних користувачів в інтернеті, більше не діє».

Штучний Інтелект Кібербезпека Приватність

Статті про вітчизняний бізнес та цікавих людей:

Lullaby@lullaby.ua
Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці
Mantle вирізняється підходом, рідкісним для догляду за обличчям: замість звичного «anti-age» він говорить про здоров'я шкіри – її бар'єр, рівний тон і сяйво.
Дата публікації: 3 дн. томуЧас на прочитання: 5 хв читати
Теми цього довгочиту:
Mantle
UCloud@ucloud_ua
Хмарні сервіси та їх використання | UCloud
Хмарні сервіси: збереження даних, трансляції, бізнес-програми та освіта. Дізнайтесь, де застосовують хмарні сервіси та як обрати їх для бізнесу.
Дата публікації: 9 липняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Хмарні Сервіси
Design Print UA@designprintua
Як паковання впливає на сприйняття бренду
Паковання давно перестало бути лише способом перенести або захистити товар. Для бізнесу це частина першого контакту з клієнтом: ще до того, як людина оцінить сам продукт, вона вже бачить матеріал, форму, якість друку та загальну подачу.
Дата публікації: 7 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Виготовлення Упаковки
Л
Леруа@leroymerlin.ua
Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси
Мобільні розкладні стільці — елемент комфортного відпочинку на відкритій дачній ділянці, терасі, патіо, в альтанці тощо. На відміну від стаціонарних крісел і диванів, це меблі, які легко переносити з місця на місце, ховати в приміщенні від дощу і брати з собою на заміські пікніки
Дата публікації: 3 липняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Садові Меблі
Kreisel UA@kreisel
Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?
Завод німецької компанії КРАЙЗЕЛЬ у Фастові функціонує за суворими німецькими стандартами, випускаючи продукцію з високими експлуатаційними характеристиками і стабільною європейською якістю
Дата публікації: 1 липняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Будматеріали

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!

Написати

Cybercalm@cybercalm

Кібербезпека простою мовою

105Довгочити

2KПерегляди

21Підписники

На Друкарні з 15 листопада 2025

Більше від автора

Автономні ШІ-червʼяки: нова ера адаптивних кібератак
Дослідники з Університету Торонто та інституту Vector продемонстрували компʼютерного червʼяка, який самостійно аналізує мережу та підбирає окремий спосіб атаки для кожної машини, на яку потрапляє, — без жодної участі людини.
Дата публікації: позавчораЧас на прочитання: 8 хв читати
Теми цього довгочиту:
Кібербезпека
Атака «людина посередині» (MITM): чому двофакторка вже не рятує — і що реально захищає
Як працює атака «людина посередині» (MITM) і сучасний AiTM-фішинг, чому самої двофакторки вже замало — та що справді захищає ваші акаунти.
Дата публікації: 30 червняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Кібербезпека
DuckDuckGo замість Google: 8 причин перейти — від пошуку без ШІ до приватного ШІ-чату
Google зробив ШІ-відповіді стандартом — а DuckDuckGo дає вибір: пошук зовсім без ШІ чи приватний Duck.ai на вимогу. 8 причин перейти на приватний пошук у 2026.
Дата публікації: 22 червняЧас на прочитання: 5 хв читати
Теми цього довгочиту:
Duckduckgo

Це також може зацікавити:

Бізнес. Ідеї. Стартапи@businessidea
9 підказок ChatGPT для створення та продажу цифрових продуктів
9-й - мій найулюбленіший варіант використання
Дата публікації: 15 січняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Пасивний Дохід
Космос Політики@politikosmos
Роботи й штучний інтелект вже перебудовують економіку Китаю - Wall Street Journal
Щоб послабити тиск Трампа на розвиток світового виробництва, китайські заводи та порти вчаться виробляти та експортувати більшу кількість товарів швидше, дешевше та з меншою кількістю працівників.
Дата публікації: 27 листопадаЧас на прочитання: 15 хв читати
Теми цього довгочиту:
Штучний Інтелект
Feo Sale@Feo_Sale
Промпт. Якісний копірайт
Вирішив не писати довгих пояснень, в просто поділюсь промптом для створення якісного тексту
Дата публікації: 28 жовтняЧас на прочитання: 1 хв читати
Теми цього довгочиту:
Llm

Автономні ШІ-червʼяки: нова ера адаптивних кібератак

Теми цього довгочиту:

Атака «людина посередині» (MITM): чому двофакторка вже не рятує — і що реально захищає

Теми цього довгочиту:

DuckDuckGo замість Google: 8 причин перейти — від пошуку без ШІ до приватного ШІ-чату

Теми цього довгочиту:

Як працює система деанонімізації на базі ШІ

Конкретні результати експериментів

Чому ШІ настільки ефективний у деанонімізації

Масштаб загрози та можливі зловживання

Як захиститися: обмежені можливості

Етичні рамки дослідження

Висновок: час переосмислити приватність в інтернеті

Статті про вітчизняний бізнес та цікавих людей:

Mantle: розбір шведського бренду активного догляду за обличчям і як зорієнтуватися в лінійці

Теми цього довгочиту:

Хмарні сервіси та їх використання | UCloud

Теми цього довгочиту:

Як паковання впливає на сприйняття бренду

Теми цього довгочиту:

Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси

Теми цього довгочиту:

Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?

Теми цього довгочиту:

Більше від автора

Автономні ШІ-червʼяки: нова ера адаптивних кібератак

Теми цього довгочиту:

Атака «людина посередині» (MITM): чому двофакторка вже не рятує — і що реально захищає

Теми цього довгочиту:

DuckDuckGo замість Google: 8 причин перейти — від пошуку без ШІ до приватного ШІ-чату

Теми цього довгочиту:

Це також може зацікавити:

9 підказок ChatGPT для створення та продажу цифрових продуктів

Теми цього довгочиту:

Роботи й штучний інтелект вже перебудовують економіку Китаю - Wall Street Journal

Теми цього довгочиту:

Промпт. Якісний копірайт

Теми цього довгочиту:

Коментарі (0)

Це також може зацікавити:

9 підказок ChatGPT для створення та продажу цифрових продуктів

Теми цього довгочиту:

Роботи й штучний інтелект вже перебудовують економіку Китаю - Wall Street Journal

Теми цього довгочиту:

Промпт. Якісний копірайт

Теми цього довгочиту: