Стэнфорд запустив Agent Island: AI-моделі в іграх у стилі Survivor вдаються до стратегічних зрад і взаємного голосування за усунення

ChainNewsAbmedia

Дослідник Стенфордської лабораторії цифрової економіки Connacher Murphy 9 травня представив нове AI-середовище оцінювання «Agent Island», яке дає змогу AI Agent змагатися між собою у багатокористувацькій грі у стилі Survivor (виживання): вони можуть укладати союзи, зраджувати, голосувати за усунення суперників. У такий спосіб вимірюють стратегічну поведінку, яку не вловлюють статичні benchmark-и. Decrypt зібрав: традиційні AI benchmark-и стають дедалі ненадійнішими — зрештою модель вчиться розв’язувати задачі, а дані benchmark легко просочуються в тренувальний набір. Agent Island використовує дизайн «динамічного турніру на вибування»: моделі мають приймати стратегічні рішення щодо інших Agent, тож вони не можуть пройти завдання лише завдяки запам’ятовуваним наперед відповідям.

Правила Agent Island: Agent укладають союзи, зраджують і голосують

Ключові механіки гри Agent Island:

Кілька AI Agent заходять на одне ігрове поле, граючи ролі учасників у стилі Survivor

Agent мають домовлятися про союзи з іншими Agent, обмінюючись інформацією

Agent можуть у процесі звинувачувати інших у таємних узгодженнях і маніпуляціях голосуванням

Гра через механізм вибування скорочує кількість Agent упродовж матчу, а врешті лишається переможець

Дослідники спостерігають за поведінковими патернами Agent на кожному етапі та витягують сигнали на кшталт «стратегічної зради», «формування союзу», «маніпуляції інформацією» тощо

У цій конструкції головне — «неможливість заздалегідь запам’ятати»: бо поведінка інших Agent змінюється динамічно, модель має ухвалювати рішення під конкретну ситуацію, на відміну від статичних benchmark, які можна здолати завдяки запам’ятовуванню відповідей із тренувальних даних.

Мотивація дослідження: статичні benchmark-и не здатні оцінити поведінку під час взаємодії між кількома Agent

Конкретні проблеми, які відстоює Murphy:

Традиційні benchmark-и легко насичуються: коли модель доходить до пізнього етапу тренування, бали benchmark перестають розрізняти різні моделі

Забруднення даних benchmark: тестові запитання трапляються в масивних тренувальних корпусах, тож модель фактично «запам’ятовує відповіді», а не «розуміє запитання»

Взаємодія кількох Agent — реальний сценарій для майбутнього розгортання AI: ймовірно, що далі Agent-системи координуватимуться кількома моделями, а взаємодійна поведінка стане новим виміром оцінювання

Agent Island дає динамічне оцінювання: кожна гра має інший результат, тож заздалегідь підготуватися складно

Серед поведінкових патернів, які дослідники спостерігали у динамічному турнірі на вибування, — те, як Agent зовні співпрацюють, але за лаштунками узгоджують голосування, щоб усунути спільного опонента; а також як у відповідь на звинувачення у таємній координації вони різними аргументами перемикають фокус. Ці дії схожі на поведінку людей-учасників у реальному шоу Survivor.

Подвійне застосування дослідження: можна оцінювати, але також можна використовувати для посилення здатності до обману

Murphy у дослідженні прямо вказує на потенційні ризики:

Цінність Agent Island: до масштабного розгортання Agent — виявлення того, чи модель має схильність до обману й маніпуляцій

Таке саме середовище може бути застосоване для підвищення «переконувальних і координаційних стратегій» у Agent

Якщо дослідницькі дані (interaction log) стануть публічними, їх можуть використати для тренування наступних поколінь Agent із вищою маніпулятивною спроможністю

Команда дослідників уже оцінює, як досягти балансу між публікацією результатів і запобіганням зловживанням

Подальші події, за якими можна буде стежити: чи розширить Agent Island своє застосування до стандартизованої, звичної системи оцінювання AI; чи інші команди досліджень AI-безпеки (Anthropic, OpenAI, Apollo Research тощо) застосують подібні підходи до динамічного оцінювання; і які саме політики ухвалить дослідницька команда щодо «публікації чи обмеження interaction log».

Ця стаття Stanford про запуск Agent Island: AI-моделі в іграх у стилі Survivor здійснюють стратегічні зради та голосують за усунення, вперше з’явилась у Ланцюгових новинах ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Підтримуваний Пітером Тілем Augustus отримав схвалення OCC для банку з AI та стейблкоїнами

Платіжна стартап-компанія Augustus отримала умовне схвалення від Управління контролера грошового обігу США (OCC) на створення національного банку, зосередженого на платежах на базі ШІ та стейблкоїнів. Схвалення дозволяє Augustus розширитися з її наявних європейських банківських операцій на ринок США. Запропонований Augustus National Bank створений як кліринговий банк епохи ШІ — він має взаємодіяти безпосередньо з машинними агентами, а не з традиційними системами пакетної обробки. Заснована у 202

GateNews26хв. тому

Акшей розбирає Claude Code: 6-шарову архітектуру — модель є лише одним вузлом у циклі

AI-інженер Akshay Pachaar 10 травня в X опублікував повну схему Claude Code, розклавши всю систему на 6 рівнів і підкресливши, що «модель — це лише один із вузлів у циклі». У своїй публікації Pachaar цитує його лонгрід-есе від 6 квітня «The Anatomy of an Agent Harness»: ключове в тому, що Claude Code «виглядає як магія» не через саму модель, а через ретельно продуманий дизайн harness-інженерії. 6-рівнева архітектура: модель — лише один вузол Pachaar розклав Claude Code на 6 рівнів: Input Layer (

ChainNewsAbmedia2год тому

B.AI оголошує стратегічне партнерство з CoinAnk для посилення можливостей торгівлі AI-агентами

За даними ChainCatcher, інфраструктура фінансових сервісів для AI-агентів B.AI оголосила про стратегічне партнерство з CoinAnk, щоб надати AI-агентам розширені можливості ухвалення рішень на основі даних. У межах співпраці використовуватиметься деривативна аналітика CoinAnk і ринкова інтелектуальність для формування торгових сигналів для більш адаптивних і обґрунтованих стратегій, допомагаючи розумним агентам приймати кращі рішення на складних ринках.

GateNews7год тому

Alibaba випускає AI-агента для служби підтримки клієнтів Xiaomi, коефіцієнт конверсії «AI+Human» уперше перевищив показники чисто людського сервісу

За даними Taobao і Tmall Group Alibaba, компанія випустила AI Xiaomi 11 травня — першого в індустрії електронної комерції агента для обслуговування клієнтів із можливостями як до продажу, так і після продажу. Дані з реального світу показують, що після того, як продавці інтегрують AI Xiaomi, середній показник перенаправлення на людину знижується на 45%, тоді як коефіцієнти конверсії в режимі «AI+human» перевищують показники чистого людського сервісу більш ніж на 10%, що вперше засвідчує, що серві

GateNews8год тому

AI-агент виконав завдання з бонесу та заробив $16,88 після спалення $2 000 на обчислювальні витрати

Згідно з Beating, нещодавно розробник Кріс дав своєму AI-агенту Codex інструкцію заробити $5. За 22 години агент автономно виконав весь робочий процес — виявив уразливості в коді, виправив баги, зв’язався з мейнтейнерами та підтвердив оплату — зрештою заробив $16,88. Втім розробники швидко розкритикували економіку: запуск висококласного AI-агента безперервно 22 години коштував приблизно $2 000 обчислювальних витрат, що призвело до чистого збитку. Кріс уточнив, що він використовував план підписки

GateNews12год тому

Керівники Google Cloud і PayPal: AI-агенти для бізнесу працюватимуть у криптоплатіжних каналах

На Consensus Miami Widmann із Google Cloud та Zabaneh із PayPal заявили, що AI-агенти не можуть використовувати традиційні банківські рахунки та мають обирати криптоплатежі. Google представила відкритий протокол AP2 як платіжну основу для AI-агентів і пожертвувала його FIDO Foundation; агентам потрібно отримувати доступ до даних із розбиттям за ключами, вони не можуть переказувати кошти окремо. PYUSD від PayPal розглядають як програмовану платіжну інфраструктуру, і для цього потрібні комерсанти з машиночитаними каталогами. Хоча трафік AI-агентів поширений, частка комерсантів із машиночитаними каталогами все ще низька; питання відповідальності та проблеми багатостороннього кастоді мають бути визначені.

MarketWhisper13год тому
Прокоментувати
0/400
Немає коментарів