OpenAI 5 月 8 日發表新研究、揭露公司在強化學習(RL)訓練過程中、部分模型的思路鏈(Chain of Thought, CoT)被「意外評分」、可能影響 AI Agent 對齊(alignment)監控能力。OpenAI Alignment 團隊報告說明:保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線;OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。
為什麼 CoT 監控是 AI Agent 對齊的關鍵防線
CoT(思路鏈)監控的核心邏輯:
當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作
監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」(misalignment)的徵兆
若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖
OpenAI 主張:訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力
「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。
意外的 CoT 評分:對既有模型監控能力的影響
OpenAI 報告披露的具體發現:
在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分
意外評分意指:訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出
這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」
OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向
Redwood Research 的獨立評論指出:CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。
對 AI Agent 安全的長期意義
本次研究指向 AI Agent 安全的核心方法論:
CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎
訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」
未來模型若推理鏈愈長、CoT 監控的價值理論上愈高
但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化
後續可追蹤的具體事件:OpenAI 對受影響模型的後續處理(例如重訓或標示)、其他大型實驗室(Anthropic、Google DeepMind)的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。
這篇文章 OpenAI 揭 CoT 評分意外影響:保留思路鏈監控是 AI Agent 對齊關鍵防線 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
OpenAI 於 5 月 11 日向歐盟機構開放 GPT-5.5-Cyber;Anthropic 暫緩 Mythos
根據 Glontech 指出,5 月 11 日,OpenAI 宣布將授予歐盟機構使用 GPT-5.5-Cyber,這是其最新的資安模型變體。該存取權將擴展至歐洲合作夥伴,包括企業、政府機關、資安官員,以及歐盟 AI Office;針對已審查的資安團隊,將提供有限的預覽可用性。與此同時,Anthropic 仍保留是否向該地區開放其 Mythos 模型。
GateNews46分鐘前
白宮不會設立新的官僚機構來監管 AI,Hassett 表示
根據白宮國家經濟委員會主任凱文・哈塞特(Kevin Hassett)表示,川普政府不會成立新的官僚機構來規管 AI 產品。哈塞特稱:「白宮裡沒有人認為我們應該建立一個大型的新官僚體系來核准 AI。」
GateNews47分鐘前
Binance AI 安全系統防止了 105 億美元的加密詐騙損失
Binance 聲稱,其 AI 資安系統集體協助挽救數百萬名使用者,避免在 2025 年第 1 季到 2025 年第 2 季之間遭受詐騙的潛在損失達 105.3 億美元,據週一發布的一篇部落格文章稱。全球最大加密貨幣交易所已推出約兩打由 AI 驅動的資安功能,以保護使用者免於加密貨幣詐騙與釣魚企圖。 由 AI 驅動的資安功能 Binance 的資安基礎設施採用多項 AI 技術來偵測並防止詐欺。電腦視覺用於偵測偽造的付款證明,而即時語言分析則有助於在點對點交易中辨識詐騙模式。根據 Binance 的說法,AI 驅動的決策機制如今為 57% 的詐欺控管提供動力,相較於產業基準,促成信用卡詐欺案件率降低 60–70%。 在身分驗證方面,Binance 的 KYC 系統已進化,以因應日益複雜的深度偽造(deepfakes)與合成身分(synthetic identities),Binance 表示,在沒有 AI 的傳統手動流程下,能在營運效率上帶來最高 100 倍的提升。 2026 年第 1 季績效指標 僅在 2026 年第 1 季,Binance 就宣稱已保障 19.8 億美元資金不受來自
Crypto Frontier2小時前
Anthropic 的上市前估值達到 1.4 萬億美元,24 天內成長 40%
根據市場評論人士引用的鏈上預 IPO 交易數據,Anthropic 的市場隱含估值已攀升至創紀錄的 1.4 萬億美元,隨著這家人工智慧公司在可能上市之前的私募市場需求加速,其在 24 天內上漲約 40%。這些交易工具由特殊目的載體的曝險一對一支撐,並作為 Anthropic 潛在 IPO 價值的即時代理。報導指出,Anthropic 正在評估一輪新的私募融資,可能籌資高達 500 億美元,且可能的 IPO 時程最早可至 2026 年 10 月,或為該年度第四季。
GateNews3小時前
比特幣 $10M 估值宣稱在 X 上獲得關注,隨著 AI 敘事動能持續升溫
根據投資人 Adam Livingston 在 5 月 10 日於 X 上的一則貼文,圍繞 1,000 萬美元的比特幣估值所展開的再度討論,已在加密媒體間流傳,並伴隨愈來愈多的評論,將人工智慧(AI)的發展與數位資產之間的關聯聯繫起來。CCN 在報導 1,000 萬美元的比特幣價格說法時,並提及了連結 AI 基礎設施成長與加密貨幣(例如 Bitcoin 與 Ethereum)中活動增加之間的論點。
GateNews4小時前
微軟執行長 Nadella 於週一在 Musk 對 OpenAI 的訴訟中作證,Altman 也在場
根據 CNBC,微軟(Microsoft)執行長 Satya Nadella 於 5 月 12 日(週一)在加州奧克蘭的聯邦法院出庭,出席的是馬斯克(Musk)針對 OpenAI 以及 CEO Sam Altman 進行的持續訴訟。微軟也在該案中被列為被告。 馬斯克指控微軟「協助並縱容」OpenAI 違反其慈善信託(charitable trust)義務。法院文件顯示,自 2019 年以來,微軟已向 OpenAI 投資超過 130 億美元,其中包含 2023 年的 100 億美元投資。馬斯克認為,這項投資是關鍵轉折點,當 OpenAI 偏離其非營利使命時便發生了變化。OpenAI 的管理層被指控在追求商業路線的同時,從慈善架構中獲取利益。
GateNews7小時前