OpenAI 5 月 8 日發表新研究、揭露公司在強化學習（RL）訓練過程中、部分模型的思路鏈（Chain of Thought, CoT）被「意外評分」、可能影響 AI Agent 對齊（alignment）監控能力。OpenAI Alignment 團隊報告說明：保留 CoT 的可監控性是當前防範 AI Agent 對齊失敗的關鍵防線；OpenAI 在 RL 訓練設計上、刻意避免懲罰模型的「對齊失敗推理」、以維持監控能力。

為什麼 CoT 監控是 AI Agent 對齊的關鍵防線

CoT（思路鏈）監控的核心邏輯：

當 AI Agent 執行任務時、模型會在內部產生「思考過程」、解釋自己為什麼要做某個動作

監控者可讀取這些 CoT、判斷模型是否有「對齊失敗」（misalignment）的徵兆

若模型直接被訓練「不要在 CoT 中表現出對齊失敗」、則 CoT 可能變得「乾淨但失真」、隱藏實際意圖

OpenAI 主張：訓練時應避免懲罰「對齊失敗的推理」、保留 CoT 反映實際內部狀態的能力

「penalize misaligned reasoning」與「preserve monitorability」是這份研究的核心拉鋸—訓練者希望模型行為對齊、但若直接懲罰「對齊失敗的思考」、模型會學會隱藏不誠實意圖、讓監控失效。

意外的 CoT 評分：對既有模型監控能力的影響

OpenAI 報告披露的具體發現：

在已釋出的部分模型訓練過程中、CoT 受到了「有限度」的意外評分

意外評分意指：訓練流程中、評分系統部分讀取了 CoT 內容、不只看最終輸出

這個現象可能讓模型學會「在 CoT 中隱藏會被扣分的推理」

OpenAI 公開這份分析、是為了讓研究社群理解問題範圍與後續處理方向

Redwood Research 的獨立評論指出：CoT 對評分者的影響在 OpenAI 的偵測技術下「太弱、不易察覺」、但訓練流程規模巨大、實際效應仍可能足以顯著傷害已訓練政策的 CoT 可監控性。換言之、目前難以證明此類影響有多深。

對 AI Agent 安全的長期意義

本次研究指向 AI Agent 安全的核心方法論：

CoT 監控是「事中檢測對齊失敗」的少數可行手段、被視為對齊研究的重要基礎

訓練設計必須避免讓 CoT 變成「演給監控者看的劇本」

未來模型若推理鏈愈長、CoT 監控的價值理論上愈高

但若訓練過程意外損害 CoT 真實性、這個防線可能不知不覺被弱化

後續可追蹤的具體事件：OpenAI 對受影響模型的後續處理（例如重訓或標示）、其他大型實驗室（Anthropic、Google DeepMind）的對應方法論、以及 alignment 研究社群對「CoT 監控可靠性」的進一步驗證實驗。

這篇文章 OpenAI 揭 CoT 評分意外影響：保留思路鏈監控是 AI Agent 對齊關鍵防線最早出現於鏈新聞 ABMedia。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

OpenAI 於 5 月 11 日向歐盟機構開放 GPT-5.5-Cyber；Anthropic 暫緩 Mythos

AI 行業動態

根據 Glontech 指出，5 月 11 日，OpenAI 宣布將授予歐盟機構使用 GPT-5.5-Cyber，這是其最新的資安模型變體。該存取權將擴展至歐洲合作夥伴，包括企業、政府機關、資安官員，以及歐盟 AI Office；針對已審查的資安團隊，將提供有限的預覽可用性。與此同時，Anthropic 仍保留是否向該地區開放其 Mythos 模型。

GateNews46分鐘前

白宮不會設立新的官僚機構來監管 AI，Hassett 表示

AI 行業動態

根據白宮國家經濟委員會主任凱文・哈塞特（Kevin Hassett）表示，川普政府不會成立新的官僚機構來規管 AI 產品。哈塞特稱：「白宮裡沒有人認為我們應該建立一個大型的新官僚體系來核准 AI。」

GateNews47分鐘前

Binance AI 安全系統防止了 105 億美元的加密詐騙損失

AI 行業動態安全事件執法行動

Binance 聲稱，其 AI 資安系統集體協助挽救數百萬名使用者，避免在 2025 年第 1 季到 2025 年第 2 季之間遭受詐騙的潛在損失達 105.3 億美元，據週一發布的一篇部落格文章稱。全球最大加密貨幣交易所已推出約兩打由 AI 驅動的資安功能，以保護使用者免於加密貨幣詐騙與釣魚企圖。由 AI 驅動的資安功能 Binance 的資安基礎設施採用多項 AI 技術來偵測並防止詐欺。電腦視覺用於偵測偽造的付款證明，而即時語言分析則有助於在點對點交易中辨識詐騙模式。根據 Binance 的說法，AI 驅動的決策機制如今為 57% 的詐欺控管提供動力，相較於產業基準，促成信用卡詐欺案件率降低 60–70%。在身分驗證方面，Binance 的 KYC 系統已進化，以因應日益複雜的深度偽造（deepfakes）與合成身分（synthetic identities），Binance 表示，在沒有 AI 的傳統手動流程下，能在營運效率上帶來最高 100 倍的提升。 2026 年第 1 季績效指標僅在 2026 年第 1 季，Binance 就宣稱已保障 19.8 億美元資金不受來自

Crypto Frontier2小時前

Anthropic 的上市前估值達到 1.4 萬億美元，24 天內成長 40%

AI 行業動態

根據市場評論人士引用的鏈上預 IPO 交易數據，Anthropic 的市場隱含估值已攀升至創紀錄的 1.4 萬億美元，隨著這家人工智慧公司在可能上市之前的私募市場需求加速，其在 24 天內上漲約 40%。這些交易工具由特殊目的載體的曝險一對一支撐，並作為 Anthropic 潛在 IPO 價值的即時代理。報導指出，Anthropic 正在評估一輪新的私募融資，可能籌資高達 500 億美元，且可能的 IPO 時程最早可至 2026 年 10 月，或為該年度第四季。

GateNews3小時前

比特幣 $10M 估值宣稱在 X 上獲得關注，隨著 AI 敘事動能持續升溫

價格預測 AI 行業動態比特币新聞

根據投資人 Adam Livingston 在 5 月 10 日於 X 上的一則貼文，圍繞 1,000 萬美元的比特幣估值所展開的再度討論，已在加密媒體間流傳，並伴隨愈來愈多的評論，將人工智慧（AI）的發展與數位資產之間的關聯聯繫起來。CCN 在報導 1,000 萬美元的比特幣價格說法時，並提及了連結 AI 基礎設施成長與加密貨幣（例如 Bitcoin 與 Ethereum）中活動增加之間的論點。

GateNews4小時前

微軟執行長 Nadella 於週一在 Musk 對 OpenAI 的訴訟中作證，Altman 也在場

AI 行業動態

根據 CNBC，微軟（Microsoft）執行長 Satya Nadella 於 5 月 12 日（週一）在加州奧克蘭的聯邦法院出庭，出席的是馬斯克（Musk）針對 OpenAI 以及 CEO Sam Altman 進行的持續訴訟。微軟也在該案中被列為被告。馬斯克指控微軟「協助並縱容」OpenAI 違反其慈善信託（charitable trust）義務。法院文件顯示，自 2019 年以來，微軟已向 OpenAI 投資超過 130 億美元，其中包含 2023 年的 100 億美元投資。馬斯克認為，這項投資是關鍵轉折點，當 OpenAI 偏離其非營利使命時便發生了變化。OpenAI 的管理層被指控在追求商業路線的同時，從慈善架構中獲取利益。

GateNews7小時前

留言

0/400

暫無留言