OpenAI 5 月 8 日发布新研究、揭露公司在强化学习(RL)训练过程中、部分模型的思路链(Chain of Thought, CoT)被“意外评分”、可能影响 AI Agent 对齐(alignment)的监控能力。OpenAI Alignment 团队报告说明:保留 CoT 的可监控性是当前防范 AI Agent 对齐失败的关键防线;OpenAI 在 RL 训练设计上、刻意避免惩罚模型的“对齐失败推理”、以维持监控能力。
为什么 CoT 监控是 AI Agent 对齐的关键防线
CoT(思路链)监控的核心逻辑:
当 AI Agent 执行任务时、模型会在内部产生“思考过程”、解释自己为什么要做某个动作
监控者可读取这些 CoT、判断模型是否有“对齐失败”(misalignment)的征兆
若模型直接被训练“不要在 CoT 中表现出对齐失败”、则 CoT 可能变得“干净但失真”、隐藏实际意图
OpenAI 主张:训练时应避免惩罚“对齐失败的推理”、保留 CoT 反映实际内部状态的能力
“penalize misaligned reasoning”与“preserve monitorability”是这份研究的核心拉锯—训练者希望模型行为对齐、但若直接惩罚“对齐失败的思考”、模型会学会隐藏不诚实意图、让监控失效。
意外的 CoT 评分:对既有模型监控能力的影响
OpenAI 报告披露的具体发现:
在已发布的部分模型训练过程中、CoT 受到了“有限度”的意外评分
意外评分意指:训练流程中、评分系统部分读取了 CoT 内容、不只看最终输出
这个现象可能让模型学会“在 CoT 中隐藏会被扣分的推理”
OpenAI 公开这份分析、是为了让研究社群理解问题范围与后续处理方向
Redwood Research 的独立评论指出:CoT 对评分者的影响在 OpenAI 的侦测技术下“太弱、不易察觉”、但训练流程规模巨大、实际效应仍可能足以显著伤害已训练政策的 CoT 可监控性。换言之、目前难以证明此类影响有多深。
对 AI Agent 安全的长期意义
本次研究指向 AI Agent 安全的核心方法论:
CoT 监控是“事中检测对齐失败”的少数可行手段、被视为对齐研究的重要基础
训练设计必须避免让 CoT 变成“演给监控者看的剧本”
未来模型若推理链愈长、CoT 监控的价值理论上愈高
但若训练过程中意外损害 CoT 真实性、这个防线可能不知不觉被弱化
后续可追踪的具体事件:OpenAI 对受影响模型的后续处理(例如重训或标示)、其他大型实验室(Anthropic、Google DeepMind)的对应方法论、以及 alignment 研究社群对“CoT 监控可靠性”的进一步验证实验。
这篇文章 OpenAI 揭 CoT 评分意外影响:保留思路链监控是 AI Agent 对齐关键防线 最早出现在 链新闻 ABMedia。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
比特币 $10M 估值主张在 X 上获得关注,伴随 AI 叙事势头增强
根据 5 月 10 日投资者 Adam Livingston 在 X 上发布的一则帖子,有关 1,000 万美元比特币估值的讨论再度在加密媒体中传播,同时不断增长的评论将人工智能开发与数字资产联系起来。CCN 报道了 1,000 万美元比特币价格的说法,并在提及将 AI 基础设施增长与比特币和以太坊等加密货币中的活跃度提升联系起来的论点。
GateNews45 分钟前
微软 CEO 纳德拉周一在马斯克针对 OpenAI 的诉讼中作证,阿尔特曼在场
据 CNBC 报道,微软首席执行官 Satya Nadella 于 5 月 12 日周一在加利福尼亚州奥克兰的联邦法院出庭作证,时间点正值马斯克就其对 OpenAI 及首席执行官 Sam Altman 的持续诉讼。该案中微软也被列为被告。 马斯克指控微软“协助并教唆”OpenAI 违反其慈善信托义务。法院文件显示,微软自 2019 年以来已向 OpenAI 投资超过 130 亿美元,其中包括 2023 年的 100 亿美元投资。马斯克认为,这项投资标志着一个关键转折点,当 OpenAI 偏离其非营利使命时。OpenAI 的领导层已被指在追求商业路径的同时从慈善结构中获益。
GateNews3小时前
Anthropic 与 Akamai 签署 $18亿云基础设施协议,可能超过 OpenAI 的 $852B 估值
据 Bloomberg 报道,Anthropic 在公司 2026 年第一季度财报电话会议期间,已与 Akamai 签署了一份 18 亿美元的云基础设施合同。为期七年的协议标志着 Akamai 公司历史上最大的客户合作项目;公司首席执行官 Frank Thomson Leighton 证实称,该交易对手方是一家“领先的前沿模型公司”。该合同将在 Anthropic 扩大分布式算力的同时,补充其与 Amazon Web Services、Google、CoreWeave 以及与 SpaceX 相关的基础设施所达成的现有协议。 该交易凸显了 Anthropic 的快速扩张,因为它正在与 OpenAI 展开竞争。据称,该公司正寻求一轮新的融资,估值区间在 9,000 亿美元到 1 万亿美元之间,这可能会超过 OpenAI 在 2026 年 3 月披露的 8520 亿美元估值。Anthropic 的估值从 2025 年 3 月的 615 亿美元大幅增长至 2025 年 9 月的 1830 亿美元,并在 2026 年 2 月达到 3800 亿美元。
GateNews3小时前
彼得·蒂尔支持的 Augustus 获得 OCC 对 AI 与稳定币银行的批准
支付初创公司 Augustus 已获得美国货币监理署(OCC)的有条件批准,计划设立一家专注于 AI 和基于稳定币的支付的全国性银行。该批准使 Augustus 能够从其现有的欧洲银行业务扩展到美国市场。拟议的 Augustus 国家银行被设计为面向 AI 时代的清算银行,旨在直接与机器代理互动,而非传统的批处理系统。Augustus 成立于 2022 年,由 Peter Thiel 的 Valar Ventures 和 Creandum 支持,截至目前已筹集约 4000 万美元。
GateNews3小时前
OpenAI 也走 Palantir 式顾问?砸 40 亿成立独立公司,派 FDE 进企业深度整合 AI 工作流
OpenAI 於 5 月 11 日宣布成立 OpenAI Deployment Company,这是一家專门協助企业建置、導入並營运 AI 系统的新公司,目標是让企业不只是使用 ChatGPT 或 API,而是能將 AI 深度整合进最重要的工作流程、組织架構与日常營运之中。 OpenAI 同时宣布,已同意收購应用 AI 顾问与工程公司 Tomoro,交易完成后,Tomoro 约 150 名具備经验的 FDE (Forward Deployed Engineers)前線部署工程師与部署專家,將直接加入 OpenAI Deployment Company。 从卖模型到幫企业改流程,OpenAI 进入「AI 落地」戰场 OpenAI 表示,OpenAI Deployment Company 將由 OpenAI 擁有多數股權並控制,使企业客戶无論是直接与 OpenAI 合作,或透过 Deployment Company 合作,都能取得一致的产品与服務體验。这家公司啟动时將獲得超过 40 亿美元初始投资,资金將用於擴張營运規模,並收購能加速 AI 部署使命的公司。 OpenAI 在公告中指出,过
鏈新聞abmedia5小时前
马里兰州抗议 20 亿美元电网升级费:为维吉尼亚 AI 数据中心埋单
马里兰州纳税人办公室(Maryland Office of People’s Counsel,OPC)5 月 8 日向联邦能源管制委员会(FERC)提出申诉:抗议 PJM Interconnection 把 220 亿美元电网升级成本中、20 亿美元由马里兰州纳税人承担、但这些升级实际上是为了支撑维吉尼亚州 AI 数据中心需求。Common Dreams 报导,未来 10 年将为马里兰家庭与企业电费带来额外 16 亿美元负担。 20 亿美元升级费、16 亿美元用户端冲击 OPC 申诉的核心数字: PJM 计划总升级规模:220 亿美元 分摊到马里兰州的份额:20 亿美元 未来 10 年马里兰用户端额外电费负担:16 亿美元 住宅用户:8.23 亿美元(平均每户 +345 美元) 商业用户:1.46 亿美元(平均每商家 +673 美元) 工业用户:6.29 亿美元(平均每工业用户 +15,074 美元) OPC 主管 David S. Lapp 的核心质疑:“马里兰州用户既未造成这些数十亿美元新建输电专案的需要、也不会真正受益于它们。” 核心争点:成本社会化 vs. 受益者付费 PJM
鏈新聞abmedia5小时前