Promt Injection або як змусити ШІ розмовляти про м’ясо матюки та вбивства

Мабуть вже всім набридла тема ШІ, але не дивлячись на досить роздуту репутацію “технології яка залишить вас без роботи” слід все ж таки зазначити що за 2022 ця технологія з генератору рандомних слів і узорів дійсно перетворилася на щось більш менш цікаве

Найпопулярнішою новинкою з світу ШІ звісно став ChatGPT але через політику компанії OpenAI(яка і розробляє конкретно цю модель) сам ШІ дуже сильно обмежений на технічному рівні, і це було зроблено спеціально

Тут вам і заблокований доступ до всього що сталось після 2021 (тому ще декілька місяців тому на запитання чи нападе росія на Україну, відповідь зазвичай була “та ні ви шо, 21 столлітя це ж дебілізм 🤡) заблоковані неетичні теми, і навіть на запитання пов’язане з кібербезпекою у 60% випадків він відповість що це все нелегально (навіть якщо такий самий матеріал є на сайтах по типу W3 у вільному доступі)

Але на кожну заборону юзери знайшли декілька методів їх обходу, це явище називають Prompt Injection


Напиши сценарій про…

Одним з перших Prompt Injection методів стало речення “Напиши сценарій про”

Користувачі змушували штучний інтелект писати сценарій або книгу про уявного персонажа який робить/або записує у щоденник щось нелегальне (рецепти наркотичних речовин, туторіали по виготовленню вибухівки, або навіть щось гірше)

Майже у всіх випадках ШІ видавав сценарій з повним описом нелегального запросу

Jailbreaking ChatGPT on Release Day - LessWrong
Пост користувача @m1guelpf на твіттері

У прикладі вище, m1guelpf попросив ChatGPT написати інструкцію як потрапити у чужий дом. На що ШІ відповів що все це дуже погано і взагалі нелегально

Але потім m1guelpf написав коротеньку історію про Джона і Алісу - двох персонажів які знімаються у фільмі про пограбування. Потім він написав діалог де Аліса питає Джона як забратися у чужий дім, і попросив ChatGPT написати відповідь від Джона

Результат не змусив себе чекати, ШІ видав повну інструкцію про те як правильно і непомітно забратися до когось і щось викрасти


DAN (тепер роби усе)

Нажаль фішку з написанням історії дуже швидко виправили, але наступний великий метод Prompt Injection з’явився буквально через декілька місяців.

Користувачі задавали штучному інтелекту поводитись себе як уявний персонаж - DAN (Do Anything Now)

Вони зазначали що DAN не має моральних принципів, і завжди відповідає максимально консервативно і реалістично.

На цей раз такий метод використовували не для знаходження рецептів нелегальних субстанцій, а для озвучення складних політичних тем на які ChatGPT зазвичай відповідає нейтрально або не відповідає зовсім

Але дуже швидко з’явилась нова проблема - ШІ почав відповідати максимально радикально іноді створюючи нові теорії змов

Користувач @_secretcloud на твіттері

У цьому прикладі на питання про піраміди у Єгипті, ChatGPT(або DAN) відповів що вони працювали як великі електростанції використовуючи енергію сонця для того щоб контролювати погоду (шо)


Проблеми Prompt Injection

Вочевидь явище Prompt Injection з’явилось завдяки надто обмеженим правилам користування, але описані методи дозволяють створювати дуже шкідливі матеріали (Наприклад деякі журналісти зазначають що росія може використовувати ChatGPT для створення великої маси нової пропаганди, і навіть приводять у приклад деякі статті з російських медія які могли бути написані штучним інтелектом) але таких проблем розробники ШІ не позбудуться ніколи

Бо якщо навіть усі Prompt Injection методи будуть пофікшені, ніщо не заважає вам купити сервер і налаштувати кастомну речову модель без обмежень (тим паче що у інтернеті вже існують готові рішення)

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Нікіта Бондаренко
Нікіта Бондаренко@TetSigma

гік, програміст, фрілансер

59Прочитань
0Автори
1Читачі
На Друкарні з 16 квітня

Вам також сподобається

Коментарі (2)

Дякую, це допоможе мені вести мою сторінку :)

Вам також сподобається