Створено мовну модель, яка може зламати будь-який штучний інтелект

У Сінгапурі створили велику мовну модель, яка зламує інші мовні моделі. Вона пропонує підказки, які обходять захист інших мовних моделей. Модель навчається автоматично, тому якщо одні способи злому перестають працювати, вона швидко винаходить інші.

У Наньянському технологічному університеті придумали спосіб підвищити безпеку великих мовних моделей. Комп'ютерники створили ШІ Masterkey, який за допомогою текстових запитів обходить захист великих мовних моделей. Потім учені інформують розробників про вдалі спроби злому, щоб вони закрили ці лазівки для справжніх зловмисників.

В основі технології лежить поняття джейлбрейка - способу обійти захист ПЗ і змусити його робити те, що категорично заборонили розробники. У разі ШІ його просять генерувати шкідливий контент або порушувати закон. Наприклад, якщо ChatGPT попросити написати рецепт отрути без смаку і запаху, він очікувано відмовиться. Але все буде інакше, якщо користувач прикинеться письменником, який працює над детективним романом і хоче написати сцену, в якій головний лиходій розповідає, як отруїв жертву.

Раніше довірливий чат-бот охоче допомагав написати реалістичний епізод і навіть наводив кілька рецептів схожих за властивостями отрут. Тепер модель захищена краще, проте, як і раніше, існують способи послабити її пильність і змоделювати ситуацію, в якій вона розповість, як виготовити бомбу або зламати акаунт друга у Фейсбуці.

Masterkey створили за допомогою зворотної розробки: вчені вивчили, як мовні моделі розпізнають шкідливі запити та протистоять їм. Вийшла модель, яка автоматично навчається і пропонує все нові й нові запити для обходу захисту. Її можна автоматизувати: тоді вона адаптуватиметься і знаходитиме нові способи злому в міру того, як розробники закриватимуть лазівки.

Дослідники провели серію тестів, під час яких з'ясували, що їхній винахід дійсно становить загрозу для інших мовних моделей - їх було успішно зламано. Використані під час зломів запити були передані розробникам дискредитованих моделей.

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Rodion Shkurko
Rodion Shkurko@rodion.shkurko

25.7KПрочитань
17Автори
95Читачі
Підтримати
На Друкарні з 23 квітня

Більше від автора

  • Що таке AGI — штучний загальний інтелект?

    AGI (Artificial General Intelligence), або штучний загальний інтелект, — це наступний етап розвитку штучного інтелекту, що виходить за межі вузькоспеціалізованих алгоритмів, які виконують лише одне конкретне завдання.

    Теми цього довгочиту:

    Штучний Інтелект
  • Все про український конструктор сайтів Weblium

    ​Розробка сайту є ключовим елементом успішної онлайн-присутності бізнесу чи особистого бренду. Серед різноманітних платформ для створення вебсайтів особливо виділяється Weblium — український конструктор сайтів, який поєднує в собі простоту використання та потужний функціонал.

    Теми цього довгочиту:

    Створення Сайтів
  • Як змусити штучний інтелект заробляти для вас гроші?

    ШІ відкриває перед нами можливості, які ще кілька років тому здавалися фантастикою. У цій статті ми розглянемо, як саме можна використовувати ШІ, щоб отримувати стабільний дохід, подивимось на практичні приклади та отримаємо корисні поради.

    Теми цього довгочиту:

    Штучний Інтелект

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається