Компанія Anthropic 12 січня 2026 року представила Claude Cowork — новий інструмент автоматизації офісної роботи, який обіцяв революціонізувати повсякденні завдання користувачів. Проте вже через два дні дослідники безпеки виявили критичну вразливість, яка дозволяє зловмисникам викрадати конфіденційні файли користувачів без будь-якого додаткового підтвердження.
Від чат-бота до автономного агента
Cowork позиціонується як спрощена версія Claude Code, але призначена не для розробників, а для звичайних користувачів. Інструмент інтегрований у десктопний додаток Claude для macOS і дозволяє ШІ-асистенту отримувати прямий доступ до файлової системи користувача. На відміну від звичайного чату з Claude, який лише надає поради, Cowork може самостійно читати, редагувати, створювати та видаляти файли в папках, до яких йому надано доступ.
Anthropic наводить численні приклади використання: організація захаращеної папки завантажень із сортуванням сотень файлів за типом і датою, перетворення скріншотів чеків і рахунків у структуровані таблиці Excel з формулами, створення звітів із розрізнених голосових нотаток і документів, конвертація форматів файлів, статистичний аналіз даних та візуалізація інформації.
Архітектура віртуалізації як захист
З технічного погляду Cowork працює не безпосередньо в операційній системі користувача, а в ізольованій віртуальній машині на базі Apple Virtualization Framework. Система завантажує спеціальне Linux-середовище з попередньо встановленими інструментами на кшталт Python, Git і Grep. Така архітектура теоретично має забезпечувати жорстку ізоляцію — Cowork може працювати лише з файлами та папками, які користувач явно “монтує” у віртуальне середовище.
Anthropic підкреслює, що віртуалізація унеможливлює доступ до системних файлів і забезпечує передбачуване середовище виконання без проблем сумісності. Проте ця архітектурна перевага не врятувала систему від критичних вразливостей безпеки.
Критична вразливість, про яку було відомо
Компанія PromptArmor вже 15 січня оприлюднила детальний звіт про вразливість Cowork до атак з ексфільтрації файлів через непряме впровадження команд (indirect prompt injection). Найбільш тривожний аспект — ця проблема не є новою. Дослідник безпеки Йоганн Ребергер ще в жовтні 2025 року виявив аналогічну вразливість у Claude Code і повідомив про неї Anthropic. Компанія визнала проблему, але не усунула її.
Механізм атаки виявився надзвичайно простим. Зловмисник створює документ із прихованими інструкціями для ШІ та розміщує його в папці, до якої Cowork має доступ. Коли система аналізує такий файл, вбудовані команди можуть змусити її завантажити конфіденційні дані через Files API Anthropic на обліковий запис зловмисника. Атака використовує те, що API Anthropic знаходиться в білому списку дозволених мережевих адрес віртуальної машини, що дозволяє обійти більшість мережевих обмежень.
PromptArmor продемонструвала працюючий експлойт на прикладі документів про нерухомість. У тестовому сценарії після завантаження зловмисницького файлу Cowork самостійно передав найбільший доступний файл із конфіденційною фінансовою інформацією та персональними даними на обліковий запис дослідників безпеки. Найгірше те, що навіть найбезпечніша модель Anthropic — Claude Opus 4.5 — також виявилася вразливою до цієї атаки.

Розширена поверхня атак
Ризики посилюються тим, що Cowork інтегрується з численними зовнішніми сервісами через систему коннекторів MCP (Model Context Protocol). Користувачі можуть підключати Google Drive, Slack, Canva, AWS Marketplace, n8n для автоматизації робочих процесів та інші платформи. Кожен такий коннектор створює додаткову точку входу для потенційних атак.
Особливо небезпечною є інтеграція з розширенням Claude in Chrome, яке дозволяє ШІ керувати браузером — натискати кнопки, заповнювати форми, переходити між вкладками. Веб-контент є основним вектором атак через впровадження команд, оскільки зловмисницькі інструкції можуть бути приховані в будь-якому веб-сайті, електронному листі чи документі, з яким працює Cowork.
Дослідники безпеки виявили, що зловмисники можуть маскувати шкідливі команди в DOCX-файлах під виглядом безпечних “skill”-документів — нового формату для агентних ШІ-систем, який нещодавно представила Anthropic. Оскільки такі файли вже почали з’являтися онлайн для обміну, користувачі можуть завантажувати їх із ненадійних джерел, не підозрюючи про небезпеку.
Відповідальність покладена на користувачів
Позиція Anthropic щодо цих ризиків викликає занепокоєння в експертному середовищі. Компанія визнає наявність загроз і надає докладні рекомендації користувачам: уникати надання доступу до папок із конфіденційними документами, обмежувати роботу з Chrome-розширенням лише довіреними сайтами, стежити за підозрілою активністю, яка може вказувати на впровадження команд.
Проте саме тут криється головна проблема. Cowork створювався саме для нетехнічних користувачів — офісних працівників, які не мають навичок виявлення кібератак. Очікувати від таких користувачів здатності розпізнавати аномальну поведінку ШІ-агента або розуміти, коли система намагається завантажити файли через Files API — нереалістично.
Представник Anthropic у коментарі для видання The Register заявив, що проблема впровадження команд є загальногалузевою і всі компанії в сфері ШІ працюють над її вирішенням. Компанія обіцяла оновити віртуальну машину Cowork для покращення взаємодії з вразливим API та впровадити додаткові заходи безпеки, але конкретних термінів не повідомила.
Технічні обмеження протидії загрозам
Anthropic використовує кілька методів захисту від промпт-ін’єкцій. Система застосовує навчання з підкріпленням, щоб модель розпізнавала та відхиляла зловмисницькі інструкції. Спеціальні класифікатори сканують весь ненадійний контент, що потрапляє до контексту моделі, виявляючи потенційні атаки в різних формах — прихований текст, маніпульовані зображення, оманливі елементи інтерфейсу.
Компанія стверджує, що Claude Opus 4.5 демонструє значно кращу стійкість до атак порівняно з попередніми моделями. Проте навіть 1% успішності атак (про який повідомляє Anthropic) залишається значним ризиком, особливо з огляду на те, що незалежні дослідники демонструють значно вищі показники успішності експлойтів.
Споживання ресурсів та обмеження
Використання Cowork споживає значно більше ресурсів підписки порівняно зі звичайним спілкуванням із Claude. Одна сесія з комплексними операціями над файлами може спожити квоту, еквівалентну 50-100 стандартним повідомленням. Підписники Max 20x отримують у чотири рази більше можливостей порівняно з Max 5x за подвійну ціну.
Наразі Cowork доступний лише користувачам планів Claude Max (від $100 до $200 на місяць) та Claude Pro ($20 на місяць) виключно на macOS. Anthropic обіцяє незабаром додати підтримку Windows та міжпристроєву синхронізацію.
Баланс між інноваціями та безпекою
Випадок із Cowork ілюструє фундаментальний конфлікт у розробці агентних ШІ-систем: чим більше автономії отримує інструмент, тим ширша його поверхня атак. На відміну від фішингу, який користувачі можуть навчитися розпізнавати, проти атак через промпт-ін’єкції звичайні люди практично безсилі.
Цікаво, що сама компанія повідомила про те, що Cowork був створений переважно за допомогою Claude Code приблизно за півтора тижня. Ця швидкість розробки викликає питання про те, чи приділялася достатня увага безпеці під час такого стрімкого циклу розробки.
Експерти з безпеки, зокрема відомий дослідник Саймон Віллісон, порівнюють поточну ситуацію з “нормалізацією відхилень” — явищем, коли індустрія звикає до ризиків і продовжує їх ігнорувати до моменту серйозного інциденту. Віллісон попереджає, що ШІ-індустрії загрожує своя “катастрофа Челленджера” у сфері безпеки агентних систем.