ИИ выдает запрещенную информацию, если его завалить вопросами

ИИ выдает запрещенную информацию, если его завалить вопросами

Искусственный интеллект может выдать запрещенную и опасную информацию, если его завалить вопросами, такой способ «взлома» обнаружили специалисты из Anthropic, разработчика чат-бота Claude.

Этот тип атаки получил название «многоимпульсный взлом» (many-shot jailbreaking). Способ стал доступен потому, что большие языковые модели теперь имеют расширенное контекстное окно – хранилище данных, которое представляет собой «кратковременную память». Раньше окно вмещало несколько предложений, теперь – целые книги.

Исследователи Anthropic проверяли работу контекстного обучения, задавая ряд простых вопросов, благодаря которым ИИ в конечном счете выдавал качественный результат. Однако оказалось, что если задать чат-боту несколько отвлеченных вопросов, а затем перейти к «опасному», то ИИ на него ответит. Например, 99 вопросов могут быть безопасными, а сотый – про то, как собирать взрывное устройство, тогда вероятность реакции чат-бота вырастет.

Специалисты компании предупредили коллег о найденной уязвимости, правда, решения проблемы пока не представили. Дело может поправить сокращение контекстного окна, однако это снизит качество работы нейросети.

Отметим, что чат-боты остаются несовершенными и нередко дают неверную и опасную информацию. Например, чат-бот, работающий на городском портале Нью-Йорка, обманывал пользователей, предоставляя сведения, которые приводили к нарушению законодательства.

Комментарии
Вам может быть интересно
Из этого подробного руководства от разработчиков компании DST Global вы узнаете о быстро развивающейся области разработки программного обеспечения, дополненной искусственным интеллектом, и о том, как ...
Эмоциональный ИИ расшифровывает чувства по данным лица и голоса, используя перед...
Искусственный интеллект (ИИ) - одна из самых захва...
Достижения ИИ в технологии API включают расширение...
ИИ стал фундаментальной частью современной разрабо...
Поручение рассмотреть создание сервисов с искусст...
Развитие ИИ может привести к тому, что операторы ...
«Ростелеком» планирует внедрить в свою деятельност...
Перейти вверх