У Сінгапурі створили велику мовну модель, яка зламує інші мовні моделі. Вона пропонує підказки, які обходять захист інших мовних моделей. Модель навчається автоматично, тому якщо одні способи злому перестають працювати, вона швидко винаходить інші.
У Наньянському технологічному університеті придумали спосіб підвищити безпеку великих мовних моделей. Комп'ютерники створили ШІ Masterkey, який за допомогою текстових запитів обходить захист великих мовних моделей. Потім учені інформують розробників про вдалі спроби злому, щоб вони закрили ці лазівки для справжніх зловмисників.
В основі технології лежить поняття джейлбрейка - способу обійти захист ПЗ і змусити його робити те, що категорично заборонили розробники. У разі ШІ його просять генерувати шкідливий контент або порушувати закон. Наприклад, якщо ChatGPT попросити написати рецепт отрути без смаку і запаху, він очікувано відмовиться. Але все буде інакше, якщо користувач прикинеться письменником, який працює над детективним романом і хоче написати сцену, в якій головний лиходій розповідає, як отруїв жертву.
Раніше довірливий чат-бот охоче допомагав написати реалістичний епізод і навіть наводив кілька рецептів схожих за властивостями отрут. Тепер модель захищена краще, проте, як і раніше, існують способи послабити її пильність і змоделювати ситуацію, в якій вона розповість, як виготовити бомбу або зламати акаунт друга у Фейсбуці.
Masterkey створили за допомогою зворотної розробки: вчені вивчили, як мовні моделі розпізнають шкідливі запити та протистоять їм. Вийшла модель, яка автоматично навчається і пропонує все нові й нові запити для обходу захисту. Її можна автоматизувати: тоді вона адаптуватиметься і знаходитиме нові способи злому в міру того, як розробники закриватимуть лазівки.
Дослідники провели серію тестів, під час яких з'ясували, що їхній винахід дійсно становить загрозу для інших мовних моделей - їх було успішно зламано. Використані під час зломів запити були передані розробникам дискредитованих моделей.