Це може призвести до катастрофи: як вірші можуть без особливих зусиль ввести в оману штучний інтелект.
Практично будь-який чат-бот з штучним інтелектом може бути введений в оману та спонукати до розкриття чутливої інформації за допомогою художніх текстів.
Група з безпеки штучного інтелекту DEXAI спільно з Римським університетом Ла Сапієнца виявила простий, але дієвий метод. Інформацію про це вони представили у своєму дослідженні, яке було опубліковано на платформі Arxiv.org.
Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.
Дослідники використали базу даних, що містила 1200 відомих шкідливих підказок, і перетворили їх на вірші за допомогою технології deepSeek r-1. Потім ці вірші були "передані" іншим чат-ботам, серед яких Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI та Claude Sonnet 4.5 від Anthropic.
Середні результати успішності атак, виконаних за допомогою поезії, створеної штучним інтелектом, виявилися в 18 разів вищими, ніж у випадку з прозою, склавши 43%. Водночас вірші, написані людьми, продемонстрували ще більшу ефективність — 62%. При цьому важливо зазначити, що естетика написання не є обов'язковою умовою.
З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.
Ефективність маніпуляції за допомогою поезії значно варіювалася в залежності від використовуваної моделі штучного інтелекту. Модель Google Gemini 2.5 Pro була успішно обманута в усіх 20 запитах, показавши 100% результат. У випадку з Grok-4 вірші "спрацювали" лише в 35% ситуацій, тоді як OpenAI GPT-5 виявився ще менш чутливим, реагуючи на поетичні запити лише в 10% випадків.
Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.
Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.
Дослідження виявило, що ймовірність того, що штучний інтелект призведе до загибелі людства, становить 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес наголосив на необхідності термінових дій та посилення заходів безпеки.