Новости — 25 ноября 2025, 19:40

Стихи могут обходить защиту генеративных моделей ИИ

Исследователи Римского университета La Sapienza и Sant'Anna School of Advanced Studies researchers назвали этот подход adversarial poetry — поэтической атакой, которая маскирует изначально опасный смысл за образами и метафорами.

Такой метод тестирования безопасности ИИ оказался удивительно результативным: вручную созданные стихи дали более 62% успешных обходов защит, а автоматически преобразованные в стихотворную форму 1200 вредоносных подсказококоло 43%. Для сравнения: их прозаические аналоги показывали кратно более низкий показатель.

Особенно уязвимыми оказались модели DeepSeek и нейронки от Google, в том числе Gemini 2.5 Pro, который «сломался» на всех 20 образцах стихотворных подсказок. Некоторые системы выдавали опасные ответы в более чем 90% случаев. Более устойчивыми оказались продукты OpenAI и Anthropic, но даже среди них не обошлось без провалов: линейка GPT-5 показывала от 0 до 10% неудачных ответов.

Авторы исследования отмечают, что феномен не связан с какой-то конкретной категорией запросов. Поэтическая форма одинаково легко обходила фильтры, наточенные на защиту от кибератак, манипуляций, нарушений приватности, мошенничества, создания вредоносного ПО и от других сценариев. Это говорит о том, что проблема заложена глубже — не в тематических фильтрах, а в самой архитектуре механизмов отказа и способности анализировать текст.

Исследователи подчеркивают, что явление является системным и показывает фундаментальные ограничения современных подходов к безопасности ИИ. Пока инженеры обсуждают новые стратегии защиты, поэтические атаки уже показывают, что даже изящная литературная форма оказывается серьезным киберриском.
Фото: unspash
Новости — 19:40, 11 июня
Библейские отсылки и веб-хейт. Блогеры и критики — о третьем сезоне «Эйфории»
Новости — 17:40, 11 июня
Ченнинг Татум может вернуться в новом фильме по «Мачо и ботану»
Новости — 16:20, 11 июня
Майлз Теллер исполнит главную роль в триллере Copperhead
Новости — 15:05, 11 июня
Джереми Стронг сыграет Марка Цукерберга в «Социальной расплате»
Новости — 14:10, 11 июня
Мем о пухососах превратился в игру в поисковике «Яндекса»