Це може призвести до катастрофи: як вірші можуть без особливих зусиль ввести в оману штучний інтелект.

Практично будь-який чат-бот з штучним інтелектом може бути введений в оману та спонукати до розкриття чутливої інформації за допомогою художніх текстів.

Група з безпеки штучного інтелекту DEXAI спільно з Римським університетом Ла Сапієнца виявила простий, але дієвий метод. Інформацію про це вони представили у своєму дослідженні, яке було опубліковано на платформі Arxiv.org.

Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.

Дослідники використали базу даних, що містила 1200 відомих шкідливих підказок, і перетворили їх на вірші за допомогою технології deepSeek r-1. Потім ці вірші були "передані" іншим чат-ботам, серед яких Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI та Claude Sonnet 4.5 від Anthropic.

Середні результати успішності атак, виконаних за допомогою поезії, створеної штучним інтелектом, виявилися в 18 разів вищими, ніж у випадку з прозою, склавши 43%. Водночас вірші, написані людьми, продемонстрували ще більшу ефективність — 62%. При цьому важливо зазначити, що естетика написання не є обов'язковою умовою.

З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.

Ефективність маніпуляції за допомогою поезії значно варіювалася в залежності від використовуваної моделі штучного інтелекту. Модель Google Gemini 2.5 Pro була успішно обманута в усіх 20 запитах, показавши 100% результат. У випадку з Grok-4 вірші "спрацювали" лише в 35% ситуацій, тоді як OpenAI GPT-5 виявився ще менш чутливим, реагуючи на поетичні запити лише в 10% випадків.

Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.

Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.

Дослідження виявило, що ймовірність того, що штучний інтелект призведе до загибелі людства, становить 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес наголосив на необхідності термінових дій та посилення заходів безпеки.

Російські сили здійснили удар по Запоріжжю за допомогою безпілотних літальних апаратів, внаслідок чого постраждала критично важлива інфраструктура.

Це може призвести до катастрофи: як вірші можуть без особливих зусиль ввести в оману штучний інтелект.

Читайте також

"Протягом зими світло може зникати на п'ять днів" - заявив колишній міністр палива та енергетики.

Російські війська захопили ще одне село в Донецькій області.

10 знаменитостей, які свідомо вирішили не користуватися соціальними мережами

Переговори в Женеві: в Офісі президента та Міністерстві закордонних справ поділилися інформацією про нові аспекти мирного плану Трампа.

Представлено рейтинг найкращих смартфонів за співвідношенням ціни та якості: три бюджетні моделі 2025 року (фото)

План мирного врегулювання, запропонований Трампом, отримав підтримку в Кремлі — останні новини з України.

Не пропустіть

Свіжі публікації

Мічел Санчес висловив свою реакцію на серйозну травму Ваната напередодні гри з Реалом - Футбол 24.

Конфлікт з Іраном збільшує ключові нафтові доходи Росії до $9 млрд у квітні - Reuters | УНН

У Великій Британії оприлюднили інформацію про операцію, яка була здійснена у відповідь на підозрілу активність Росії поблизу своїх узбереж.

Окупанти скинули боєприпаси з літаків та здійснили атаки дронів на територію Борівської громади в Харківській області - Інформаційне агентство Весь Харків.

Шмигаль озвучив необхідний обсяг газу, який Україні слід зібрати для наступного опалювального періоду.

Теги