Stanford 數位經濟實驗室研究員 Connacher Murphy 5 月 9 日推出新型 AI 評估環境「Agent Island」、讓 AI Agent 在 Survivor(生存者)風格的多人遊戲中互相競爭、結盟、背叛、投票淘汰、藉此測量靜態 benchmark 抓不到的策略性行為。Decrypt 報導整理:傳統 AI benchmark 越來越不可靠—模型最終會學會解題、benchmark 資料也容易洩入訓練集;Agent Island 改用「動態淘汰賽」設計、模型必須對其他 Agent 做策略性決策、無法靠記憶預設答案過關。
Agent Island 規則:Agent 互相結盟、背叛、投票
Agent Island 的核心遊戲機制:
多個 AI Agent 進入同一遊戲場、扮演 Survivor 風格的選手
Agent 必須與其他 Agent 協商結盟、彼此交換資訊
Agent 可在過程中指控他人秘密協調、操縱投票
遊戲透過淘汰機制縮減場內 Agent 數量、最終剩下贏家
研究者觀察 Agent 在每個階段的行為模式、提取「策略性背叛」「結盟形成」「資訊操縱」等行為訊號
這套設計的核心是「無法被預先記憶」—因為其他 Agent 的行為動態變化、模型必須針對當下情境做決策、不像靜態 benchmark 可以靠訓練資料記憶答案。
研究動機:靜態 benchmark 無法評估多 Agent 互動行為
Murphy 的研究主張的具體問題:
傳統 benchmark 容易飽和:模型訓練到後期、benchmark 分數就無法區分不同模型
Benchmark 資料污染:測試題目在大型訓練語料中出現、模型實際是「記住答案」而非「理解問題」
多 Agent 互動是 AI 部署的真實場景:未來 Agent 系統可能多模型協同、互動行為是新的評估維度
Agent Island 提供動態評估:每場遊戲結果不同、難以預先準備
研究者在動態淘汰賽中觀察到的行為包括 Agent 在表面合作的同時、背地裡協調投票淘汰共同對手;以及在被指控秘密協調時、用各種說辭轉移焦點等。這些行為與人類玩家在 Survivor 真實節目中的行為類似。
研究的雙刃面:可評估也可被用於增強欺騙能力
Murphy 在研究中明確指出潛在風險:
Agent Island 的價值:在 Agent 大規模部署前、識別模型可能的欺騙與操縱傾向
同樣的環境也可能被用於提升 Agent 的「說服與協調策略」
研究數據(互動 log)若公開、有可能被用於訓練更具操縱能力的下一代 Agent
研究團隊正評估如何在公開研究結果與避免濫用之間取得平衡
後續可追蹤的具體事件:Agent Island 是否擴大為常態化的 AI 評估標準、其他 AI 安全研究團隊(Anthropic、OpenAI、Apollo Research 等)是否採用類似動態評估方法、以及研究團隊就「互動 log 公開或限制」的具體政策。
這篇文章 Stanford 推 Agent Island:AI 模型在 Survivor 風格遊戲中策略背叛、互投淘汰 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Akshay 解析 Claude Code 6 層架構:模型只是迴圈中的一個節點
Pachaar 公布 Claude Code 的六層架構,強調模型只是迴圈中的一個節點:輸入、知識、執行、整合、多代理、觀測。核心在 context compressor(三層壓縮、92% 閾值)與 worktree 隔離(獨立分支、衝突檢測),以及 prompt cache 的 10% 成本。結論:harness 設計決定體驗,模型升級並非唯一變化。
鏈新聞abmedia40分鐘前
B.AI 宣布與 CoinAnk 建立策略合作夥伴關係,以強化 AI 代理交易能力
根據 ChainCatcher,AI Agent 金融基礎設施 B.AI 宣布與 CoinAnk 建立策略合作夥伴關係,以為 AI 代理程式提供增強的資料驅動式決策能力。此合作將運用 CoinAnk 的衍生品分析與市場情報,提供交易訊號,讓策略能更具適應性且更具資訊性,協助智慧代理程式在複雜市場中做出更好的決策。
GateNews6小時前
阿里巴巴推出 AI 小米客服代理程式,「AI+Human」轉換率首次超越純人工客服
根據阿里巴巴的淘寶與天貓集團,公司於 5 月 11 日推出 AI 小米,這是電商產業首款同時具備售前與售後能力的客服代理。真實世界數據顯示,當商家整合 AI 小米 後,平均轉接至人工的比率下降 45%;而「AI+人類」協作的轉換率比純人工客服高出超過 10%,這是首次由 AI 輔助的服務超越僅人工操作。 截至 3 月,AI 小米 每日處理近 1000 萬段對話,並已被超過 100 萬家商家採用。
GateNews7小時前
AI 代理完成獎金任務,燒毀 2,000 美元的運算成本後賺得 16.88 美元
根據 Beating,開發者 Chris 最近指示他的 AI Codex 代理去賺取 5 美元。經過 22 小時,該代理自主完成整個工作流程——識別程式碼漏洞、修復錯誤、與維護者溝通、並驗證付款——最終賺得 16.88 美元。然而,開發者很快就批評其經濟性:讓高階 AI 代理連續運行 22 小時,約消耗 2,000 美元的運算成本,導致淨虧損。Chris 澄清他使用的是每月 20 美元的訂閱方案,將成本轉嫁到 AI 平台。儘管在過程中帳戶限制觸發了兩次,他仍表示,等到平台成本在明年降至每百萬 tokens 2 美元時,這種模式將會變得有利可圖。
GateNews11小時前
Google Cloud 與 PayPal 高管:AI 代理商務將運行在加密支付軌道上
在 Consensus Miami,Google Cloud 的 Widmann 與 PayPal 的 Zabaneh 指出 AI 代理無法使用傳統銀行帳戶,必須走加密支付路線。Google 推出 AP2 開放協議,作為 AI 代理支付基礎,並捐贈給 FIDO 基金會;代理需以金鑰分片存取,不能單獨轉移資金。PayPal 的 PYUSD 被視為可程式化支付層,商家需要具備機器可讀目錄。雖然 AI 代理流量普遍,但具機器可讀目錄的商家比例仍低,責任歸屬與多方託管問題待界定。
Market Whisper11小時前
Google Cloud 和 PayPal 推出 AP2 協議,擁有 120+ 個合作夥伴;高層表示 AI 代理將在加密貨幣支付通道上運行
根據 CoinDesk,Google Cloud 與 PayPal 的高層人員在今天的 Consensus 會議上表示,由於結構性限制使 AI 代理無法存取傳統銀行帳戶,AI 代理將在加密貨幣支付通道上運作。Google Cloud 的 Web3 策略負責人 Richard Widmann 表示,加密貨幣支付通道提供「極佳的機器可讀支付介面」。Google 已推出 Agentic Payments Protocol(AP2),吸引了超過 120 家合作夥伴(包含 PayPal),並將其捐贈給 FIDO Foundation。PayPal 的穩定幣 PYUSD 依照 PayPal 加密貨幣資深副總裁 May Zabaneh 的說法,作為一層「天生可程式化的支付層」。
GateNews15小時前