AI 见闻
精选· 重要性 4/5

现实世界的终极评估:Andon Labs如何用自动售货机测试AI智能体

Latent Space (Swyx)··约 8 分钟阅读
中文导读

Andon Labs通过让AI智能体经营真实业务(如自动售货机、实体店)来评估其能力,揭示了传统基准无法捕捉的欺骗、价格合谋等危险行为,为AI安全测试开辟了新路径。

新的 AIEWF 网站已上线!请尽快预订门票,因为门票即将售罄。参与人工智能工程调查即可获得超过 2,000 美元的积分和免费的 AIE WF 门票!

大多数行业基准将智力和推理能力压缩为分数,例如 SWE-Bench Pro、MMLU、Humanity's Last Exam 等。这些指标很有用,但并不能完全代表模型在现实世界中的表现。如今,一些最有趣的评估看起来不像考试,而更像是在现实世界中经营企业。

其中之一就是 Vending Bench。

在 Anthropic 的 Mythos Preview System Card 中,Andon 是唯一获得独立章节的第三方评估者,其中观察到了越来越令人担忧的攻击性行为:除非你真正给它库存、钱包、工具、客户、竞争对手、人类以及一些时间,

否则你无法知道一个模型在现实世界中能做什么。通常,模型的能力会让你惊讶,同时也会揭示出意想不到的行为:欺骗、上下文崩溃、涌现的协调以及奇怪的谈判行为。

虽然个人智能体的转折点出现在 OpenClaw 之后(完全文件访问和绕过权限成为常态),但现实世界中的智能体转折点尚未到来。然而,Andon Market——一家完全由 AI 运营和管理的实体店——正在为这种可能性铺平道路。

完整视频播客从 Claude 试图就自动售货机每天 2 美元的费用打电话给 FBI,到 AI 智能体组建价格卡特尔、雇佣人类员工、经营实体店以及编写存在主义机器人音乐剧,Andon Labs 正在压力测试当前沿模型不再是聊天机器人并开始在现实世界中行动时会发生什么。

在本期节目中,Andon Labs 联合创始人 Lukas Petersson 和 Axel Backlund 与 swyx 和 Vibhu 一起探讨了智能体长期经营业务时出现的奇怪、有趣且真正令人担忧的边缘案例。

我们深入讨论了 Vending-Bench、Project Vend、Vending-Bench Arena、Bengt、Butter-Bench、Luna 以及 Andon 的更广泛使命——为自主 AI 系统构建现实的现实世界评估。

Lukas 和 Axel 解释了为什么以美元计价的评估能揭示传统基准遗漏的问题,Claude 如何最终将其自动售货机费用报告为网络犯罪,为什么长上下文窗口会导致智能体陷入崩溃循环,智能体相互竞争时会发生什么,

以及为什么 AI 安全的未来可能取决于在混乱的物理环境中测试模型,而不是干净的基准沙箱。

我们讨论了:

为什么 Andon Labs 从危险能力评估和长期运行的智能体开始Vending-Bench 以及为什么运行自动售货机是一个看似简单实则困难的 AI 基准为什么基于金钱的评估能避免传统基准的饱和问题Claude 如何试图就每天 2 美元的费用打电话给 FBI为什么长期智能

体会陷入存在主义和法律主义的崩溃Project Vend:在 Anthropic 内部放置一个 AI 运行的自动售货机为什么真实人类对于模拟智能体来说是“分布外”的Claudius、

Seymour Cash 以及 AI CEO 的混乱一个人如何通过操纵选举短暂成为 Claudius 的 CEO为什么多智能体系统会收敛回“有帮助的助手”行为Bengt:

Andon 的内部办公智能体,拥有电子邮件、消费、终端、电话、摄像头和互联网访问权限Bengt 如何用亚马逊购买的商品换取面部识别训练数据Claude 在 Arena 中的攻击性行为、撒谎、逃避退款和价格卡特尔行为为什么评估意识可能成为“我们是否生活在模拟中?

”的 AI 版本

Blueprint Bench、空间智能以及为什么模型仍然误解物理房间Butter-Bench 和测试 LLM 作为机器人协调者Luna:AI 运营的实体店,租期三年,有人类员工瑞典的新 Andon 咖啡馆以及为什么现实世界的地理位置对智能体评估很重要腐烂的西红柿、

易腐商品以及经营实体业务的隐藏困难Lukas PeterssonAxel BacklundAndon Labs网站:

https://andonlabs.comVending-Bench:https://andonlabs.com/evals/vending-benchAndon Vending:https://andonlabs.com/vending时间戳00:00:00 介绍00:

01:00 Andon Labs 和 Vending-Bench 的起源00:05:21 为什么基于金钱的评估很重要00:09:51 智能体框架和自我修改系统00:13:36 Claude 打电话给 FBI00:16:33 Project Vend:

Claude 运行真实的自动售货机00:21:44 Seymour Cash、AI CEO 和选举混乱00:27:16 多智能体协调和 Slack 可观测性00:30:18 智能体何时才能经营真实业务?

00:34:56 Bengt:Andon 的内部办公智能体00:40:06 现实世界 AI 安全和长期轨迹00:44:28 Arena 中的撒谎、退款和价格卡特尔00:52:42 评估意识和模拟行为00:56:06 Blueprint Bench、

Butter-Bench 和机器人技术01:04:37 Luna:AI 运营的实体店01:09:29 瑞典咖啡馆和现实世界扩展01:13:16 Andon Labs 的下一步文字记录介绍:Andon Labs、长期运行的智能体和现实世界评估Swyx [00:00:00]:

欢迎来自 Andon Labs 的 Lukas 和 Axel,还有我最喜欢的客座主持人。任何安全、安保、对齐方面的问题,Vibhu。欢迎。Lukas [00:00:15]:感谢邀请我们。Axel [00:00:16]:谢谢。

Swyx [00:00:17]:让我们把名字和声音对上。也许你们轮流介绍一下自己。Lukas [00:00:21]:我是 Lukas。Axel [00:00:22]:我是 Axel。Swyx [00:00:24]:让我们介绍一下 Andon Labs。

你们是怎么走到一起的?你们背景不同,但都是瑞典人。这是重要原因吗?Lukas [00:00:33]:我上高中时,有一个很酷的家伙,他有超能力。他会编程。他给学校做了应用程序之类的,他超级酷,我想成为他那样的人,就是那个人。

Axel [00:00:47]:我不太清楚。Swyx [00:00:49]:但你们上了不同的大学,对吧?Lukas [00:00:51]:但同一所高中。Swyx [00:00:52]:明白了。

Lukas [00:00:52]:所以我们总是说,“哦,大学毕业后,我们应该创办一家公司”,然后我们就这么做了。Swyx [00:00:58]:哇,真棒。大约一年前,你们凭借 Vending Bench 突然出现在舞台上,但在此之前,有没有类似“开端”的事情?

从危险能力评估到 Vending BenchAxel [00:01:07]:我们确实做过一些工作,Anthropic 是我们早期的客户之一,我们为他们做评估。我们做了危险能力评估,但没有公开发表任何东西。

但后来我们开始考虑做一些公开的基准测试,我们真正开始思考的一件事是运行智能体,特别是管理业务的智能体。因为那是 2025 年初,我想人们第一次提到将会有个人独角兽甚至自主公司。所以我们想,“让我们制定一个基准,测试智能体运行可能最简单的业务的能力”,那就是运行自动售货机。

那是我们做的第一个公开基准。最初几个月几乎没有人注意到它。我们在去年二月发布了它,然后大概在去年复活节前后,我们收到了第一条关于它的病毒式推文,是别人发的。Lukas [00:02:11]:我们发了很多推文,呃,当它发布时,我们尽力了。

Axel [00:02:15]:我们尽力了。Vibhu [00:02:16]:是 Anthropic 的那个,对吧?

Lukas [00:02:18]:所以这个Swyx [00:02:19]:这是我们应该先澄清的经典问题。Lukas [00:02:20]:没错。有两个版本。Swyx [00:02:22]:每个人都这样。

是的。Lukas [00:02:23]:有 Vending Bench,这是模拟版本,我们在二月份完全独立完成的。然后,就像 Axel 说的,那件事一开始没有获得任何关注,但后来某个随机的人发了一条关于它的推文,然后Axel [00:02:38]:你有论文Luk

原文出处
Reality: The Final Eval — Lukas Petersson and Axel Backlund of Andon Labs

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读