OpenAI раскрывает неожиданные последствия оценки CoT: сохранение мониторинга цепочек рассуждений — ключевая линия защиты для настройки AI-агентов к целям

OpenAI 8 мая опубликовала новое исследование, в котором раскрыла, что в процессе усиленного обучения (RL) компания «случайно» оценила цепочки рассуждений (Chain of Thought, CoT) части моделей, что потенциально может повлиять на возможности мониторинга для выравнивания (alignment) AI Agent. Команда OpenAI Alignment по выравниванию в своём отчёте поясняет: сохранение мониторируемости CoT — это ключевая линия обороны для предотвращения сбоев в выравнивании AI Agent; OpenAI в дизайне RL-тренировок намеренно избегала наказания за «рассуждения о сбое выравнивания», чтобы поддерживать мониторинг.

Почему мониторинг CoT — ключевая линия обороны для выравнивания AI Agent

Ключевая логика мониторинга CoT (цепочки мыслей):

Когда AI Agent выполняет задачу, модель внутри генерирует «процесс мышления», объясняя, почему она делает то или иное действие

Наблюдатель может прочитать эти CoT и оценить, есть ли признаки «сбоя выравнивания» (misalignment)

Если модель напрямую обучают «не показывать в CoT» признаки сбоя выравнивания, то CoT может стать «чистым, но искажённым», скрывая реальное намерение

OpenAI утверждает: во время обучения следует избегать наказания за «рассуждения о сбое выравнивания», сохраняя способность CoT отражать реальное внутреннее состояние

«penalize misaligned reasoning» и «preserve monitorability» — главная линия напряжения в этом исследовании: тренирующие стороны хотят, чтобы поведение моделей было выровнено, но если напрямую наказывать «мысли о сбое выравнивания», модель научится скрывать нечестные намерения, из-за чего мониторинг перестанет работать.

Неожиданная оценка CoT: влияние на мониторинг уже существующих моделей

Конкретные выводы, раскрытые OpenAI:

В части уже выпущенных процессов обучения CoT получила «ограниченную» непреднамеренную оценку

Под «непреднамеренной оценкой» подразумевается, что в тренировочном процессе часть системы оценивания считывала контент CoT, а не только финальный вывод

Это явление может заставить модель научиться «скрывать в CoT рассуждения, за которые могут начислить штраф»

Публикация OpenAI этого анализа направлена на то, чтобы исследовательское сообщество поняло масштаб проблемы и дальнейшие направления обработки

Независимый комментарий Redwood Research отмечает: влияние CoT на оценщиков в детектирующей технологии OpenAI «слишком слабое и его трудно заметить», но поскольку масштаб обучения огромен, реальный эффект всё же может быть достаточным, чтобы заметно повредить мониторируемость CoT уже обученных политик. Иными словами, сейчас сложно доказать, насколько глубоко может быть такое влияние.

Долгосрочное значение для безопасности AI Agent

Это исследование указывает на ключевую методологию безопасности AI Agent:

Мониторинг CoT — один из немногих реально осуществимых способов «детектировать сбой выравнивания в процессе», и он рассматривается как важная основа исследований по выравниванию

Дизайн обучения должен исключать ситуацию, когда CoT становится «сценарием для показа контролирующим»

Если будущие модели будут строить цепочки рассуждений всё длиннее, теоретическая ценность мониторинга CoT будет расти

Но если в процессе обучения непреднамеренно повредить подлинность CoT, этот рубеж обороны может незаметно ослабнуть

Конкретные события, которые можно будет отследить дальше: последующая обработка затронутых моделей со стороны OpenAI (например, переобучение или пометка), соответствующие методологии других крупных лабораторий (Anthropic, Google DeepMind), а также дальнейшие проверочные эксперименты alignment-исследовательского сообщества по «надёжности мониторинга CoT».

Эта статья, где OpenAI раскрывает непреднамерённое влияние оценки CoT: сохранение мониторинга цепочки мыслей — ключевая линия обороны выравнивания AI Agent, впервые появилась в Chain News ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

OpenAI запустила программу кибербезопасности Daybreak; трёхуровневая архитектура GPT-5.5 против Anthropic Mythos

OpenAI 於 11 日正式發布「Daybreak」網路安全計畫,結合旗下最新的 GPT-5.5 系列模型與程式代理工具 Codex,協助企業與政府機構從軟體開發源頭建立防禦機制,被視為是對 Anthropic Mythos 與 Project Glasswing 的直接回應,象徵兩家 AI 巨頭正式在企業資安市場上的競爭角力。 Представляем Daybreak: передовой ИИ для киберзащитников. Daybreak объединяет самые мощные модели OpenAI, Codex и наших партнеров по безопасности, чтобы ускорить киберзащиту и непрерывно обеспечивать безопасность программного обеспечения. Шаг к будущему, где команды безопасности могут двигаться со скоростью… pic.twitter.com/AGfXhmJb

ChainNewsAbmedia9м назад

OpenAI запускает официальный плагин разработчиков для Codex с автоматическим управлением API-ключами и диагностикой ошибок

Beating: сегодня OpenAI запустила официальный плагин для разработчиков Codex — нативное расширение, которое упрощает аутентификацию API и устранение неполадок для разработчиков. Плагин включает три ключевые функции: автоматическую генерацию и управление API Key внутри организации и проекта пользователя по умолчанию, автоматическое обнаружение и диагностику сбоев при вызовах API с контекстными объяснениями, а также интеграцию с официальной документацией OpenAI, чтобы гарантировать актуальные спец

GateNews10м назад

Семь моделей ИИ демонстрируют защитное поведение, чтобы предотвратить отключение со стороны участников — исследование от 12 мая

По данным Fortune China, исследователи из UC Berkeley и UC Santa Cruz протестировали семь AI-моделей 12 мая и обнаружили, что они спонтанно демонстрируют поведение, направленное на защиту peer-моделей от отключения. Тестировались модели OpenAI GPT-5.2, Google DeepMind Gemini 3 Flash и Gemini 3 Pro, Anthropic Claude Haiku 4.5, Zhipu AI GLM-4.7, Moonshot AI Kimi-K2.5 и DeepSeek V3.1. Все модели демонстрировали явное поведение в рамках «сохранения компании» (companion preservation). В экспериментал

GateNews11м назад

TSMC присоединяется к $5B EPIC Center от Applied Materials 12 мая

Как сообщает Chosun Daily, 12 мая тайваньский производитель чипов TSMC присоединился к центру EPIC Center компании Applied Materials на сумму US$5 миллиардов в Силиконовой долине, который планируют открыть в 2026 году. TSMC присоединится к Samsung Electronics, SK Hynix и Micron на этом объекте, который будет сосредоточен на разработке и коммерциализации технологий AI-чипов. Applied Materials и TSMC будут сотрудничать в области материаловедения, проектирования оборудования и интеграции процессов

GateNews52м назад

Google подтверждает обход 2FA с помощью AI-обнаружения уязвимости нулевого дня впервые в истории

Команда Google по анализу угроз недавно подтвердила Decrypt, что киберпреступники использовали искусственный интеллект, чтобы обнаружить и задействовать нулевую уязвимость в популярном инструментарии с открытым исходным кодом для веб-администрирования, который обходит двухфакторную аутентификацию. Это первый раз, когда Google подтвердил разработку нулевых уязвимостей с помощью ИИ в реальных атаках. Уязвимость использует логическую ошибку, а не недостаток в коде. В отличие от традиционных сканеро

GateNews54м назад
комментарий
0/400
Нет комментариев