ИИ выдает запрещенную информацию, если его завалить вопросами

ИИ выдает запрещенную информацию, если его завалить вопросами

Искусственный интеллект может выдать запрещенную и опасную информацию, если его завалить вопросами, такой способ «взлома» обнаружили специалисты из Anthropic, разработчика чат-бота Claude.

Этот тип атаки получил название «многоимпульсный взлом» (many-shot jailbreaking). Способ стал доступен потому, что большие языковые модели теперь имеют расширенное контекстное окно – хранилище данных, которое представляет собой «кратковременную память». Раньше окно вмещало несколько предложений, теперь – целые книги.

Исследователи Anthropic проверяли работу контекстного обучения, задавая ряд простых вопросов, благодаря которым ИИ в конечном счете выдавал качественный результат. Однако оказалось, что если задать чат-боту несколько отвлеченных вопросов, а затем перейти к «опасному», то ИИ на него ответит. Например, 99 вопросов могут быть безопасными, а сотый – про то, как собирать взрывное устройство, тогда вероятность реакции чат-бота вырастет.

Специалисты компании предупредили коллег о найденной уязвимости, правда, решения проблемы пока не представили. Дело может поправить сокращение контекстного окна, однако это снизит качество работы нейросети.

Отметим, что чат-боты остаются несовершенными и нередко дают неверную и опасную информацию. Например, чат-бот, работающий на городском портале Нью-Йорка, обманывал пользователей, предоставляя сведения, которые приводили к нарушению законодательства.

Комментарии
Вам может быть интересно
Команда разработчиков компании DST Global представила многофункциональную CMS-систему DST Platform, которая использует технологии искусственного интеллекта. РБК DST Platform использует технолог...
По результатам исследования, которое мы провели ср...
Ученые, которые стояли у истоков создания искусств...
Что такое объяснимый ИИ (XAI)?XAI включает в себя ...
Проекты искусственного интеллекта могут оказаться ...
Интерактивное чтение с помощью MEMWALKER расширяет...
Исследователи из Университета Неймегена (Нидерлан...
Эта статья представляет собой анализ того, как мет...
Перейти вверх