ИИ выдает запрещенную информацию, если его завалить вопросами
Искусственный интеллект может выдать запрещенную и опасную информацию, если его завалить вопросами, такой способ «взлома» обнаружили специалисты из Anthropic, разработчика чат-бота Claude.
Этот тип атаки получил название «многоимпульсный взлом» (many-shot jailbreaking). Способ стал доступен потому, что большие языковые модели теперь имеют расширенное контекстное окно – хранилище данных, которое представляет собой «кратковременную память». Раньше окно вмещало несколько предложений, теперь – целые книги.
Исследователи Anthropic проверяли работу контекстного обучения, задавая ряд простых вопросов, благодаря которым ИИ в конечном счете выдавал качественный результат. Однако оказалось, что если задать чат-боту несколько отвлеченных вопросов, а затем перейти к «опасному», то ИИ на него ответит. Например, 99 вопросов могут быть безопасными, а сотый – про то, как собирать взрывное устройство, тогда вероятность реакции чат-бота вырастет.
Специалисты компании предупредили коллег о найденной уязвимости, правда, решения проблемы пока не представили. Дело может поправить сокращение контекстного окна, однако это снизит качество работы нейросети.
Отметим, что чат-боты остаются несовершенными и нередко дают неверную и опасную информацию. Например, чат-бот, работающий на городском портале Нью-Йорка, обманывал пользователей, предоставляя сведения, которые приводили к нарушению законодательства.