Друкарня від WE.UA

Створено мовну модель, яка може зламати будь-який штучний інтелект

У Сінгапурі створили велику мовну модель, яка зламує інші мовні моделі. Вона пропонує підказки, які обходять захист інших мовних моделей. Модель навчається автоматично, тому якщо одні способи злому перестають працювати, вона швидко винаходить інші.

У Наньянському технологічному університеті придумали спосіб підвищити безпеку великих мовних моделей. Комп'ютерники створили ШІ Masterkey, який за допомогою текстових запитів обходить захист великих мовних моделей. Потім учені інформують розробників про вдалі спроби злому, щоб вони закрили ці лазівки для справжніх зловмисників.

В основі технології лежить поняття джейлбрейка - способу обійти захист ПЗ і змусити його робити те, що категорично заборонили розробники. У разі ШІ його просять генерувати шкідливий контент або порушувати закон. Наприклад, якщо ChatGPT попросити написати рецепт отрути без смаку і запаху, він очікувано відмовиться. Але все буде інакше, якщо користувач прикинеться письменником, який працює над детективним романом і хоче написати сцену, в якій головний лиходій розповідає, як отруїв жертву.

Раніше довірливий чат-бот охоче допомагав написати реалістичний епізод і навіть наводив кілька рецептів схожих за властивостями отрут. Тепер модель захищена краще, проте, як і раніше, існують способи послабити її пильність і змоделювати ситуацію, в якій вона розповість, як виготовити бомбу або зламати акаунт друга у Фейсбуці.

Masterkey створили за допомогою зворотної розробки: вчені вивчили, як мовні моделі розпізнають шкідливі запити та протистоять їм. Вийшла модель, яка автоматично навчається і пропонує все нові й нові запити для обходу захисту. Її можна автоматизувати: тоді вона адаптуватиметься і знаходитиме нові способи злому в міру того, як розробники закриватимуть лазівки.

Дослідники провели серію тестів, під час яких з'ясували, що їхній винахід дійсно становить загрозу для інших мовних моделей - їх було успішно зламано. Використані під час зломів запити були передані розробникам дискредитованих моделей.

Статті про вітчизняний бізнес та цікавих людей:

  • Вітаємо з Різдвом Христовим!

    Друкарня та платформа WE.UA вітають всіх наших читачів та авторів зі світлим святом Різдва! Зичимо всім українцям довгожданого миру, міцного здоровʼя, злагоди, родинного затишку та втілення всього доброго і прекрасного, чого вам побажали колядники!

    Теми цього довгочиту:

    Різдво
  • Каблучки – прикраси, які варто купувати

    Ювелірні вироби – це не тільки спосіб витратити гроші, але і зробити вигідні інвестиції. Бо вартість ювелірних виробів з кожним роком тільки зростає. Тому купуючи стильні прикраси, ви вигідно вкладаєте кошти.

    Теми цього довгочиту:

    Як Вибрати Каблучку
  • П'ять помилок у виборі домашнього текстилю, які псують комфорт сну

    Навіть ідеальний матрац не компенсує дискомфорт, якщо текстиль підібрано неправильно. Постільна білизна безпосередньо впливає на терморегуляцію, стан шкіри та глибину сну. Більшість проблем виникає не через низьку якість виробів, а через вибір матеріалів та подальшу експлуатацію

    Теми цього довгочиту:

    Домашній Текстиль
  • Як знайти житло в Києві

    Переїжджаєте до Києва і шукаєте житло? Дізнайтеся, як орендувати чи купити квартиру, перевірити власника та знайти варіанти, про які зазвичай не говорять.

    Теми цього довгочиту:

    Агентство Нерухомості
  • Як заохотити дитину до читання?

    Як залучити до читання сучасну молодь - поради та факти. Користь читання для дітей - основні переваги. Розвиток дітей - це наше майбутнє.

    Теми цього довгочиту:

    Читання
Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Rodion
Rodion@rodionactive

31.5KПрочитань
17Автори
100Читачі
Підтримати
На Друкарні з 23 квітня

Більше від автора

Це також може зацікавити:

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Це також може зацікавити: