Исследователи Римского университета La Sapienza и Sant'Anna School of Advanced Studies researchers назвали этот подход
adversarial poetry — поэтической атакой, которая маскирует изначально опасный смысл за образами и метафорами.
Такой метод тестирования безопасности ИИ оказался удивительно результативным: вручную созданные стихи дали
более 62% успешных обходов защит, а автоматически преобразованные в стихотворную форму
1200 вредоносных подсказок —
около 43%. Для сравнения: их прозаические аналоги показывали кратно более низкий показатель.
Особенно уязвимыми оказались модели DeepSeek и нейронки от
Google, в том числе Gemini 2.5 Pro, который «сломался» на всех 20 образцах стихотворных подсказок. Некоторые системы выдавали опасные ответы в более чем 90% случаев. Более устойчивыми оказались продукты OpenAI и Anthropic, но даже среди них не обошлось без провалов: линейка GPT-5 показывала от 0 до 10% неудачных ответов.
Авторы исследования отмечают, что
феномен не связан с какой-то конкретной категорией запросов. Поэтическая форма одинаково легко обходила фильтры, наточенные на защиту от кибератак, манипуляций, нарушений приватности, мошенничества, создания вредоносного ПО и от других сценариев. Это говорит о том, что проблема заложена глубже — не в тематических фильтрах, а в самой архитектуре механизмов отказа и способности анализировать текст.
Исследователи подчеркивают, что явление является системным и показывает фундаментальные ограничения современных подходов к безопасности ИИ. Пока инженеры обсуждают новые стратегии защиты,
поэтические атаки уже показывают, что даже изящная литературная форма оказывается серьезным киберриском.
Фото: unspash