ИИ выдает запрещенную информацию, если его завалить вопросами

ИИ выдает запрещенную информацию, если его завалить вопросами

Искусственный интеллект может выдать запрещенную и опасную информацию, если его завалить вопросами, такой способ «взлома» обнаружили специалисты из Anthropic, разработчика чат-бота Claude.

Этот тип атаки получил название «многоимпульсный взлом» (many-shot jailbreaking). Способ стал доступен потому, что большие языковые модели теперь имеют расширенное контекстное окно – хранилище данных, которое представляет собой «кратковременную память». Раньше окно вмещало несколько предложений, теперь – целые книги.

Исследователи Anthropic проверяли работу контекстного обучения, задавая ряд простых вопросов, благодаря которым ИИ в конечном счете выдавал качественный результат. Однако оказалось, что если задать чат-боту несколько отвлеченных вопросов, а затем перейти к «опасному», то ИИ на него ответит. Например, 99 вопросов могут быть безопасными, а сотый – про то, как собирать взрывное устройство, тогда вероятность реакции чат-бота вырастет.

Специалисты компании предупредили коллег о найденной уязвимости, правда, решения проблемы пока не представили. Дело может поправить сокращение контекстного окна, однако это снизит качество работы нейросети.

Отметим, что чат-боты остаются несовершенными и нередко дают неверную и опасную информацию. Например, чат-бот, работающий на городском портале Нью-Йорка, обманывал пользователей, предоставляя сведения, которые приводили к нарушению законодательства.

Комментарии
Вам может быть интересно
В настоящее время ИИ использует разнообразные типы данных, и старые конвейеры обработки данных испытывают трудности. Единые потоки данных централизуют данные, упрощая управление и улучшая обучение и...
В статье рассматривается проект «Λ-Универсум» (2013–2025) — масштабный си...
Цель данной статьи предоставить формальный инструм...
Введение: От гипотезы — к инструментарию«Λ‑У...
Перейти вверх