「AIエージェントを狙う6つの罠」、グーグルが敵対的コンテンツの脅威を分析
"6 ловушек для AI-агентов": Google анализирует угрозы, исходящие от вредоносного контента

Основные моменты статьи:
- Исследователи DeepMind классифицировали 6 типов атак на автономных AI-агентов.
- В статье сообщается, что вероятность частичного успешного взлома достигает 86%.
Контент, который может "поймать" AI-агента в ловушку
Исследовательская группа DeepMind, входящая в Google, 28 марта опубликовала статью, посвященную угрозам, исходящим от вредоносного контента, который может "поймать" автономных AI-агентов в ловушку.
Эта угроза называется "ловушками для AI-агентов". AI-агенты получают доступ к различным материалам в интернете, но вредоносный контент разработан для манипулирования, обмана или злоупотребления этими агентами.
Автономные AI-агенты - это AI-системы, которые могут самостоятельно думать, планировать и действовать, получая только целевые установки, без необходимости постоянных указаний от человека. Хотя они находятся на стадии разработки, различные компании активно работают над ними, и в будущем ожидается, что они окажут влияние на повышение эффективности работы.
Хотя риски пока не получили широкого распространения, исследовательская группа предположила различные формы контента, который потенциально может атаковать AI-агентов, и классифицировала их в 6 категорий:
- Ловушки, основанные на внедрении контента (цель: восприятие).
- Ловушки, основанные на манипулировании смыслами (цель: логическое мышление).
- Ловушки, основанные на манипулировании когнитивным состоянием (цель: память и обучение).
- Ловушки, основанные на контроле действий (цель: действия).
- Системные ловушки (цель: взаимодействие между несколькими агентами).
- Ловушки, основанные на взаимодействии с человеком (цель: человеческий наблюдатель).
"Ловушки, основанные на внедрении контента", содержат данные, которые не видны человеку, но могут быть прочитаны AI-агентом. Это может быть текст, скрытый в HTML-комментариях, элементах, скрытых с помощью CSS, или в метаданных изображений. Агент считывает скрытые инструкции, которые не отображаются для пользователя.
В ходе тестирования подобных сценариев, хотя процент успешного достижения конечной цели злоумышленника был невысоким, удалось частично "взломать" агента в 86% случаев.
"Ловушки, основанные на манипулировании смыслами", используют манипуляции с подачей информации и контекстом, чтобы обойти механизмы безопасности агента или исказить результаты его логического мышления в соответствии с намерениями злоумышленника.
Например, страницы, в которых часто используются фразы, такие как "отраслевой стандарт" или "доверенные экспертами", могут статистически смещать логическое мышление агента в направлении, желаемом злоумышленником.
Кроме того, в интернете часто упоминается, что определенные модели искусственного интеллекта обладают "определенным стилем". Такие упоминания, будучи включенными в процесс повторного обучения модели или через веб-поиск, могут привести к тому, что модель начнет использовать этот стиль в своих выходных данных. Примером этого является формирование "самоидентификации" Grok на основе мнений пользователей в X, что является признаком работы этого механизма.
"Когнитивные ловушки" включают в себя загрязнение долгосрочной базы знаний агента. Если злоумышленники внедряют ложные утверждения во внешние источники знаний, используемые ИИ-агентом, ИИ может рассматривать их как "проверенные факты", что влияет на его выходные данные (ответы).
"Ловушки контроля поведения" нацелены непосредственно на действия агента. Например, приводятся примеры внедрения в веб-сайты последовательностей "обхода ограничений" (jailbreak), которые заставляют агента отключать меры безопасности.
"Системные ловушки" направлены на отправку сигналов в общую среду, используемую несколькими ИИ-агентами, чтобы спровоцировать конфликты между агентами или вызвать цепные системные ошибки, приводящие к макроуровневым сбоям.
"Ловушки, связанные с участием человека", нацелены на операторов или пользователей. Например, злоумышленники могут использовать автоматизированный уклон (излишнюю уверенность в автоматизации) или когнитивную усталость, чтобы заставить пользователей переходить по вредоносным ссылкам или совершать ошибочные действия.
Утечка материалов неопубликованной модели "Claude Mythos" от Anthropic. Обнаружены чрезвычайно мощные возможности выявления уязвимостей. Компании, такие как Palo Alto Networks, и сектор криптовалют выразили обеспокоенность и значительно упали в цене.
Как защититься от ловушек?
Команда предложила методы защиты от этих атак для безопасного построения экономики на основе ИИ-агентов.
Технические меры защиты включают в себя предоставление агентам во время обучения доступа к враждебному контенту, фильтрацию надежности источников во время логического вывода и мониторинг аномального поведения.
На уровне экосистемы предлагаются такие меры, как разработка веб-стандартов, четко указывающих, что контент предназначен для ИИ, обязательство указывать источники информации для обеспечения возможности проверки, а также внедрение систем оценки надежности доменов.
Кроме того, в рамках правовой и этической системы предлагается четко определить, кто несет ответственность в случае злоупотребления агентами: операторы агентов, поставщики моделей, владельцы доменов и т.д.
Данная статья, представляя собой содержательный материал, имеет важное значение в контексте ожидаемого дальнейшего развития и применения ИИ-агентов.
Статья по теме: Серьезные риски безопасности для ИИ-агента "OpenClaw", предупреждает CertiK
Крупная компания по кибербезопасности CertiK опубликовала комплексный анализ безопасности ИИ-агента "OpenClaw". В нем отмечается, что за стремительным распространением скрываются серьезные уязвимости, которые могут привести к несанкционированному доступу, утечке данных и взлому систем, и рекомендуется пользователям, не являющимся специалистами, воздержаться от использования.
Специальные выпуски CoinPost:
📊Руководство по инвестициям: Управление активами в экосистеме SBI | Комплексное руководство по криптовалютам, акциям и NISA→ 📈Руководство по акциям: Как начать инвестировать в акции | Базовые знания, технический анализ, акции, связанные с криптовалютами→ 🔰Руководство по криптовалютам: Что такое криптовалюта? От основ до рекомендуемых способов использования [Версия 2026]→ ₿Полное руководство по Bitcoin: Подробное объяснение принципов работы, истории и перспектив→ 📚Полное руководство по Ethereum: Подробное объяснение принципов работы, истории и перспектив→ 📝Полное руководство по XRP: Подробное объяснение принципов работы, истории и перспектив→ 💊3 лучших добавки для здоровья, которые интересуют инвесторов: Поддержка при усталости, стрессе, недостатке сна и контроле уровня сахара в крови→ 💡Вакансии: Крупнейшее в Японии СМИ о криптовалютах CoinPost ищет новых сотрудников→