斯坦福推出 Agent Island:AI 模型在《生存者》(Survivor)风格游戏中进行策略背叛、互投淘汰

鏈新聞abmedia

斯坦福數位经濟实验室研究員 Connacher Murphy 5 月 9 日推出新型 AI 評估環境「Agent Island」,让 AI Agent 在 Survivor(生存者)风格的多人遊戲中互相競爭、結盟、背叛、投票淘汰,藉此測量靜態 benchmark 抓不到的策略性行为。Decrypt 报導整理:傳统 AI benchmark 越来越不可靠—模型最終会学会解題、benchmark 资料也容易洩入訓練集;Agent Island 改用「动態淘汰賽」设计、模型必須对其他 Agent 做策略性決策、无法靠記憶预设答案过关。

Agent Island 規則:Agent 互相結盟、背叛、投票

Agent Island 的核心遊戲机制:

多个 AI Agent 进入同一遊戲场、扮演 Survivor 风格的选手

Agent 必須与其他 Agent 協商結盟、彼此交換资訊

Agent 可在过程中指控他人秘密協调、操縱投票

遊戲透过淘汰机制縮減场內 Agent 數量、最終剩下贏家

研究者觀察 Agent 在每个階段的行为模式、提取「策略性背叛」「結盟形成」「资訊操縱」等行为訊號

这套设计的核心是「无法被预先記憶」—因为其他 Agent 的行为动態變化、模型必須針对当下情境做決策、不像靜態 benchmark 可以靠訓練资料記憶答案。

研究动机:靜態 benchmark 无法評估多 Agent 互动行为

Murphy 的研究主張的具體问題:

傳统 benchmark 容易飽和:模型訓練到后期、benchmark 分數就无法区分不同模型

Benchmark 资料污染:測試題目在大型訓練语料中出现、模型实际是「記住答案」而非「理解问題」

多 Agent 互动是 AI 部署的真实场景:未来 Agent 系统可能多模型協同、互动行为是新的評估維度

Agent Island 提供动態評估:每场遊戲結果不同、难以预先準備

研究者在动態淘汰賽中觀察到的行为包括 Agent 在表面合作的同时、背地裡協调投票淘汰共同对手;以及在被指控秘密協调时、用各種说辭转移焦点等。这些行为与人類玩家在 Survivor 真实節目中的行为類似。

研究的雙刃面:可評估也可被用於增強欺騙能力

Murphy 在研究中明確指出潛在风险:

Agent Island 的价值:在 Agent 大規模部署前、识別模型可能的欺騙与操縱傾向

同樣的環境也可能被用於提升 Agent 的「说服与協调策略」

研究數據(互动 log)若公开、有可能被用於訓練更具操縱能力的下一代 Agent

研究團队正評估如何在公开研究結果与避免濫用之间取得平衡

后续可追蹤的具體事件:Agent Island 是否擴大为常態化的 AI 評估標準、其他 AI 安全研究團队(Anthropic、OpenAI、Apollo Research 等)是否採用類似动態評估方法、以及研究團队就「互动 log 公开或限制」的具體政策。

这篇文章 Stanford 推 Agent Island:AI 模型在 Survivor 风格遊戲中策略背叛、互投淘汰 最早出现於 链新聞 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

Akshay 解析 Claude Code 6 层架构:模型只是循环中的一个节点

AI 工程師 Akshay Pachaar 5 月 10 日在 X 公开一張 Claude Code 完整架構圖,把整个系统拆解成 6 个層級、強调「模型只是迴圈中的其中一个節点」。Pachaar 的貼文引用他 4 月 6 日的长篇 essay《The Anatomy of an Agent Harness》,重点是:Claude Code 之所以「像魔法」、不是模型本身、而是 harness 工程的精細设计。 6 層架構:模型只是其中一个節点 Pachaar 整理的 Claude Code 6 層: Input Layer(输入層):负责 session 管理、權限控制、以 YAML 设定信任層級。任何指令进入模型前都先经过此層。 Knowledge Layer(知识層):包含 skill registry、context compressor(3 層壓縮、92% 门檻觸发)、task graph、跨 session 的記憶儲存。这是 harness「智能」存在的地方,獨立於模型權重之外。 Execution Layer(執行層):透过 typed registry 派遣工具呼叫,每

鏈新聞abmedia44 分钟前

B.AI 宣布与 CoinAnk 建立战略合作伙伴关系,以增强 AI 代理交易能力

据 ChainCatcher 称,AI 代理金融基础设施 B.AI 宣布与 CoinAnk 建立战略合作伙伴关系,为 AI 代理提供更强的数据驱动决策能力。该合作将利用 CoinAnk 的衍生品分析和市场情报,为交易提供信号,以支持更具适应性和更知情的策略,帮助智能代理在复杂市场中做出更好的决策。

GateNews6小时前

阿里巴巴发布 AI 小米客服代理,“AI+人”转化率首次超越纯人工服务

据阿里巴巴旗下淘宝和天猫集团称,公司于 5 月 11 日发布 AI 小米,这是电商行业首个同时具备售前与售后能力的客服智能体。真实数据表明,商家在集成 AI 小米后,平均转人工率下降 45%;“AI+人工”协同转化率比纯人工客服高出 10% 以上,这是 AI 辅助服务首次超越仅靠人工的运营模式。 截至 3 月,AI 小米日均处理近 1000 万次对话,已被超过 100 万家商家采用。

GateNews7小时前

AI 代理完成赏金任务,烧掉 2,000 美元的计算成本后赚取 16.88 美元

据 Beating 称,开发者 Chris 最近指示他的 AI Codex 代理赚取 5 美元。经过 22 小时,该代理自主完成了整个工作流程——识别代码漏洞、修复错误、与维护者沟通并验证付款——最终赚取了 16.88 美元。然而,开发者很快就批评了其经济性:持续运行一台高端 AI 代理 22 小时消耗了约 2000 美元的计算成本,导致净亏损。Chris 澄清他使用的是每月 20 美元的订阅计划,将成本转嫁给了 AI 平台。尽管在过程中账户限制触发了两次,但他认为一旦平台成本到明年降至每百万 tokens 2 美元,这种模式就会变得有利可图。

GateNews11小时前

Google Cloud 与 PayPal 高管:AI 代理商務将运行在加密支付轨道上

在 Consensus Miami,Google Cloud 的 Widmann 和 PayPal 的 Zabaneh 指出,AI 代理无法使用传统银行账户,必须走加密支付路线。Google 推出 AP2 开放协议,作为 AI 代理支付基础,并捐赠给 FIDO 基金会;代理需以金钥分片存取,不能单独转移资金。PayPal 的 PYUSD 被视为可程式化支付层,商家需要具备机器可读目录。虽然 AI 代理流量普遍,但具机器可读目录的商家比例仍低,责任归属与多方托管问题待界定。

Market Whisper11小时前

Google Cloud 和 PayPal 推出 AP2 协议,拥有 120+ 家合作伙伴;高管称 AI 代理将运行在加密支付通道上

据 CoinDesk 报道,Google Cloud 和 PayPal 的高管今天在 Consensus 上表示,AI 代理将会在加密货币支付通道上运行,因为存在阻碍其访问传统银行账户的结构性限制。Google Cloud 的 Web3 战略负责人 Richard Widmann 表示,加密货币支付通道提供了“出色的机器可读支付接口”。Google 已推出 Agentic Payments Protocol (AP2),吸引了超过 120 个合作伙伴(包括 PayPal),并将其捐赠给 FIDO Foundation。PayPal 的加密货币高级副总裁 May Zabaneh 表示,PayPal 的稳定币 PYUSD 作为“天然可编程的支付层”。

GateNews15小时前
评论
0/400
暂无评论