ИИ выдает запрещенную информацию, если его завалить вопросами

04.04.2024

ИИ выдает запрещенную информацию, если его завалить вопросами

Искусственный интеллект может выдать запрещенную и опасную информацию, если его завалить вопросами, такой способ «взлома» обнаружили специалисты из Anthropic, разработчика чат-бота Claude.

Этот тип атаки получил название «многоимпульсный взлом» (many-shot jailbreaking). Способ стал доступен потому, что большие языковые модели теперь имеют расширенное контекстное окно – хранилище данных, которое представляет собой «кратковременную память». Раньше окно вмещало несколько предложений, теперь – целые книги.

Исследователи Anthropic проверяли работу контекстного обучения, задавая ряд простых вопросов, благодаря которым ИИ в конечном счете выдавал качественный результат. Однако оказалось, что если задать чат-боту несколько отвлеченных вопросов, а затем перейти к «опасному», то ИИ на него ответит. Например, 99 вопросов могут быть безопасными, а сотый – про то, как собирать взрывное устройство, тогда вероятность реакции чат-бота вырастет.

Специалисты компании предупредили коллег о найденной уязвимости, правда, решения проблемы пока не представили. Дело может поправить сокращение контекстного окна, однако это снизит качество работы нейросети.

Отметим, что чат-боты остаются несовершенными и нередко дают неверную и опасную информацию. Например, чат-бот, работающий на городском портале Нью-Йорка, обманывал пользователей, предоставляя сведения, которые приводили к нарушению законодательства.

ии

искусственный интеллект

нейросеть

нейросети

anthropic

хранилище данных

чат-бот

многоимпульсный взлом

many-shot jailbreaking

безопасность

claude

Нравится 1000+

Комментарии

Другие публикации канала

Реферальная программа для маркетплейса: эффективный инструмент привлечения продавцов

РТ: DST Global участвует в национальной IT-премии «Цифровые решения»

DST Multivendor: Готовая платформа для запуска и масштабирования вашей торговой площадки

Вам может быть интересно

Мультимодальный ИИ: Следующая эволюция в искусственном интеллекте

Искусственный интеллект достиг значительных успехов, но традиционные системы ИИ в основном работали в пределах одного типа данных — обрабатывали только текст, изображения или аудио одновременно....

Искусственный интеллект

20.05.2025

DST AI - Мультимодельная платформа с искусственным интеллектом

В современном мире развития искусственного интеллекта (ИИ) одним из ключевых выз...

Искусственный интеллект

17.05.2025

Грязные данные в разработке ИИ

Не секрет, что в настоящее время идет золотая лихо...

Искусственный интеллект

03.03.2025

Преимущества синтетических данных для тестирования, соответствия и генеративного ИИ

Примечательно, когда Microsoft и другие говорят о ...