OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。
为什么 CoT 监控是 AI Agent 对齐的关键防线
CoT(思路链)监控的核心逻辑:
当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作
监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆
若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图
OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力
“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。
意外的 CoT 评分:对既有模型监控能力的影响
OpenAI 报告披露的具体发现:
在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分
意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出
这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”
OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向
Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。
对 AI Agent 安全的长期意义
本次研究指向 AI Agent 安全的核心方法论:
CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础
训练设计必须避免让 CoT 变成“演给监控者看的剧本”
未来模型若推理链愈长、CoT 监控的价值理论上愈高
但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化
后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。
这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
OpenAI 也走 Palantir 式顾问?砸 40 亿成立独立公司,派 FDE 进企业深度整合 AI 工作流
OpenAI 於 5 月 11 日宣布成立 OpenAI Deployment Company,这是一家專门協助企业建置、導入並營运 AI 系统的新公司,目標是让企业不只是使用 ChatGPT 或 API,而是能將 AI 深度整合进最重要的工作流程、組织架構与日常營运之中。 OpenAI 同时宣布,已同意收購应用 AI 顾问与工程公司 Tomoro,交易完成后,Tomoro 约 150 名具備经验的 FDE (Forward Deployed Engineers)前線部署工程師与部署專家,將直接加入 OpenAI Deployment Company。 从卖模型到幫企业改流程,OpenAI 进入「AI 落地」戰场 OpenAI 表示,OpenAI Deployment Company 將由 OpenAI 擁有多數股權並控制,使企业客戶无論是直接与 OpenAI 合作,或透过 Deployment Company 合作,都能取得一致的产品与服務體验。这家公司啟动时將獲得超过 40 亿美元初始投资,资金將用於擴張營运規模,並收購能加速 AI 部署使命的公司。 OpenAI 在公告中指出,过
鏈新聞abmedia35 分钟前
马里兰州抗议 20 亿美元电网升级费:为维吉尼亚 AI 数据中心埋单
马里兰州纳税人办公室(Maryland Office of People’s Counsel,OPC)5 月 8 日向联邦能源管制委员会(FERC)提出申诉:抗议 PJM Interconnection 把 220 亿美元电网升级成本中、20 亿美元由马里兰州纳税人承担、但这些升级实际上是为了支撑维吉尼亚州 AI 数据中心需求。Common Dreams 报导,未来 10 年将为马里兰家庭与企业电费带来额外 16 亿美元负担。 20 亿美元升级费、16 亿美元用户端冲击 OPC 申诉的核心数字: PJM 计划总升级规模:220 亿美元 分摊到马里兰州的份额:20 亿美元 未来 10 年马里兰用户端额外电费负担:16 亿美元 住宅用户:8.23 亿美元(平均每户 +345 美元) 商业用户:1.46 亿美元(平均每商家 +673 美元) 工业用户:6.29 亿美元(平均每工业用户 +15,074 美元) OPC 主管 David S. Lapp 的核心质疑:“马里兰州用户既未造成这些数十亿美元新建输电专案的需要、也不会真正受益于它们。” 核心争点:成本社会化 vs. 受益者付费 PJM
鏈新聞abmedia42 分钟前
OpenAI 推出 40 亿美元的部署公司:收购 Tomoro
OpenAI 5 月 11 日宣布成立子公司「OpenAI Deployment Company」,以 40 亿美元承諾资本、100 亿美元估值切入企业 AI 部署服務市场,並同步收購英国 AI 顾问公司 Tomoro、引进 150 名前線部署工程師(Forward Deployed Engineers)。根據 Yahoo Finance 报導,这套組合是 OpenAI 对 Anthropic 在企业端攻城掠地的正式回应。 Table of Contents Toggle 40 亿美元、100 亿估值、19 家合作夥伴 Tomoro 整併:150 名前線部署工程師日工級 競爭对照:Anthropic 5 月初已先推 15 亿美元部署合资 40 亿美元、100 亿估值、19 家合作夥伴 新公司結構的关鍵細節: 承諾资本:40 亿美元以上、估值 100 亿美元 所有權:OpenAI 取得多數股權与控制權 领投:TPG 共同领投:Advent、Bain Capital、Brookfield 其他金融參与方:Goldman Sachs、SoftBank Corp.、Warburg Pincus
鏈新聞abmedia45 分钟前
Brookfield 于 5 月 11 日投资于 OpenAI Deployment Company $500M
Brookfield 今天(5 月 11 日)宣布,它已同意向 OpenAI 部署公司投资 5 亿美元。该公司是一家新成立的 AI 部署平台,由 Brookfield、OpenAI 以及一组投资者共同创立。
GateNews1小时前
OpenAI 设立部署公司,于 5 月 11 日以 -9223372036854775808亿美元的初始投资收购 Tomoro($4 Billion)。
据 Gelonghui 称,5 月 11 日,OpenAI 成立 OpenAI 部署公司,以帮助企业构建并部署 AI 系统。作为该举措的一部分,OpenAI 同意收购 Tomoro,这是一家专注于帮助企业将 AI 转化为运营优势的应用型 AI 咨询与工程公司。该部署公司将以超过 $4 billion 的初始投资启动,以扩展业务并收购能够加速 AI 部署的其他公司。
GateNews1小时前
AI 公司 Ciridae 于 5 月 11 日完成由 Accel 领投的 $20M 种子轮融资
据 BlockBeats 报道,5 月 11 日,AI 公司 Ciridae 完成由 Accel 牵头的 2000 万美元种子轮融资,Andreessen Horowitz 和 General Catalyst 作为联合投资方。该公司由 Jack Soslow(Andreessen Horowitz 前合伙人)以及 Jack Weissenberger(Apple 前机器学习负责人)创立。 Ciridae 面向建筑、家政服务和工业分销领域的中型企业,借助 AI 帮助其重组后台运营、项目管理和财务流程。公司已与 20 多家客户合作,并在 2025 年实现七位数年度收入。
GateNews2小时前