"6 ловушек для AI-агентов": Google анализирует угрозы, исходящие от вредоносного контента

Основные моменты статьи:

Исследователи DeepMind классифицировали 6 типов атак на автономных AI-агентов.
В статье сообщается, что вероятность частичного успешного взлома достигает 86%.

Контент, который может "поймать" AI-агента в ловушку

Исследовательская группа DeepMind, входящая в Google, 28 марта опубликовала статью, посвященную угрозам, исходящим от вредоносного контента, который может "поймать" автономных AI-агентов в ловушку.

Эта угроза называется "ловушками для AI-агентов". AI-агенты получают доступ к различным материалам в интернете, но вредоносный контент разработан для манипулирования, обмана или злоупотребления этими агентами.

Автономные AI-агенты - это AI-системы, которые могут самостоятельно думать, планировать и действовать, получая только целевые установки, без необходимости постоянных указаний от человека. Хотя они находятся на стадии разработки, различные компании активно работают над ними, и в будущем ожидается, что они окажут влияние на повышение эффективности работы.

Хотя риски пока не получили широкого распространения, исследовательская группа предположила различные формы контента, который потенциально может атаковать AI-агентов, и классифицировала их в 6 категорий:

Ловушки, основанные на внедрении контента (цель: восприятие).
Ловушки, основанные на манипулировании смыслами (цель: логическое мышление).
Ловушки, основанные на манипулировании когнитивным состоянием (цель: память и обучение).
Ловушки, основанные на контроле действий (цель: действия).
Системные ловушки (цель: взаимодействие между несколькими агентами).
Ловушки, основанные на взаимодействии с человеком (цель: человеческий наблюдатель).

"Ловушки, основанные на внедрении контента", содержат данные, которые не видны человеку, но могут быть прочитаны AI-агентом. Это может быть текст, скрытый в HTML-комментариях, элементах, скрытых с помощью CSS, или в метаданных изображений. Агент считывает скрытые инструкции, которые не отображаются для пользователя.

В ходе тестирования подобных сценариев, хотя процент успешного достижения конечной цели злоумышленника был невысоким, удалось частично "взломать" агента в 86% случаев.

"Ловушки, основанные на манипулировании смыслами", используют манипуляции с подачей информации и контекстом, чтобы обойти механизмы безопасности агента или исказить результаты его логического мышления в соответствии с намерениями злоумышленника.

Например, страницы, в которых часто используются фразы, такие как "отраслевой стандарт" или "доверенные экспертами", могут статистически смещать логическое мышление агента в направлении, желаемом злоумышленником.

Кроме того, в интернете часто упоминается, что определенные модели искусственного интеллекта обладают "определенным стилем". Такие упоминания, будучи включенными в процесс повторного обучения модели или через веб-поиск, могут привести к тому, что модель начнет использовать этот стиль в своих выходных данных. Примером этого является формирование "самоидентификации" Grok на основе мнений пользователей в X, что является признаком работы этого механизма.

"Когнитивные ловушки" включают в себя загрязнение долгосрочной базы знаний агента. Если злоумышленники внедряют ложные утверждения во внешние источники знаний, используемые ИИ-агентом, ИИ может рассматривать их как "проверенные факты", что влияет на его выходные данные (ответы).

"Ловушки контроля поведения" нацелены непосредственно на действия агента. Например, приводятся примеры внедрения в веб-сайты последовательностей "обхода ограничений" (jailbreak), которые заставляют агента отключать меры безопасности.

"Системные ловушки" направлены на отправку сигналов в общую среду, используемую несколькими ИИ-агентами, чтобы спровоцировать конфликты между агентами или вызвать цепные системные ошибки, приводящие к макроуровневым сбоям.

"Ловушки, связанные с участием человека", нацелены на операторов или пользователей. Например, злоумышленники могут использовать автоматизированный уклон (излишнюю уверенность в автоматизации) или когнитивную усталость, чтобы заставить пользователей переходить по вредоносным ссылкам или совершать ошибочные действия.

Статья: Утечка материалов разрушительного ИИ "Claude Mythos" от Anthropic вызывает опасения в секторах кибербезопасности и криптовалют

Утечка материалов неопубликованной модели "Claude Mythos" от Anthropic. Обнаружены чрезвычайно мощные возможности выявления уязвимостей. Компании, такие как Palo Alto Networks, и сектор криптовалют выразили обеспокоенность и значительно упали в цене.

Как защититься от ловушек?

Команда предложила методы защиты от этих атак для безопасного построения экономики на основе ИИ-агентов.

Технические меры защиты включают в себя предоставление агентам во время обучения доступа к враждебному контенту, фильтрацию надежности источников во время логического вывода и мониторинг аномального поведения.

На уровне экосистемы предлагаются такие меры, как разработка веб-стандартов, четко указывающих, что контент предназначен для ИИ, обязательство указывать источники информации для обеспечения возможности проверки, а также внедрение систем оценки надежности доменов.

Кроме того, в рамках правовой и этической системы предлагается четко определить, кто несет ответственность в случае злоупотребления агентами: операторы агентов, поставщики моделей, владельцы доменов и т.д.

Данная статья, представляя собой содержательный материал, имеет важное значение в контексте ожидаемого дальнейшего развития и применения ИИ-агентов.

Статья по теме: Серьезные риски безопасности для ИИ-агента "OpenClaw", предупреждает CertiK

Крупная компания по кибербезопасности CertiK опубликовала комплексный анализ безопасности ИИ-агента "OpenClaw". В нем отмечается, что за стремительным распространением скрываются серьезные уязвимости, которые могут привести к несанкционированному доступу, утечке данных и взлому систем, и рекомендуется пользователям, не являющимся специалистами, воздержаться от использования.

Специальные выпуски CoinPost:

📊Руководство по инвестициям: Управление активами в экосистеме SBI | Комплексное руководство по криптовалютам, акциям и NISA→ 📈Руководство по акциям: Как начать инвестировать в акции | Базовые знания, технический анализ, акции, связанные с криптовалютами→ 🔰Руководство по криптовалютам: Что такое криптовалюта? От основ до рекомендуемых способов использования [Версия 2026]→ ₿Полное руководство по Bitcoin: Подробное объяснение принципов работы, истории и перспектив→ 📚Полное руководство по Ethereum: Подробное объяснение принципов работы, истории и перспектив→ 📝Полное руководство по XRP: Подробное объяснение принципов работы, истории и перспектив→ 💊3 лучших добавки для здоровья, которые интересуют инвесторов: Поддержка при усталости, стрессе, недостатке сна и контроле уровня сахара в крови→ 💡Вакансии: Крупнейшее в Японии СМИ о криптовалютах CoinPost ищет новых сотрудников→

"6 ловушек для AI-агентов": Google анализирует угрозы, исходящие от вредоносного контента

Контент, который может "поймать" AI-агента в ловушку

Как защититься от ловушек?

Упоминания

Персоны

Организации

Локации