AI 见闻
精选· 重要性 4/5

Anthropic 扩大前沿 AI 对话:从智慧传统到道德形成

Anthropic News··约 6 分钟阅读
中文导读

Anthropic 正与来自宗教、哲学等领域的学者对话,探讨如何塑造 AI 系统的道德品格,并已通过实验验证了类似“外部良心”的工具可降低模型失准行为。

扩大前沿人工智能的对话在 Anthropic,我们希望构建能够促进人类进步并为全球利益服务的人工智能系统。为此,我们需要与那些从各种不同角度看待世界的人接触。在过去的几个月里,我们一直在与那些工作和传统与人工智能提出的问题相关的团体组织对话。

我们的第一轮讨论是与智慧传统——包括来自超过 15 个宗教和跨文化群体的学者、神职人员、哲学家和伦理学家——我们期待着与更广泛的人群接触。我们这样做的原因构建安全、有益的人工智能模型需要在对齐、可解释性、保障措施、评估等方面进行深入的技术工作。

但这项工作并非在真空中进行,人工智能的部署也是如此。人工智能已经影响了许多人,它提出的问题受益于多种视角。我们正在仔细思考:在一个强大的人工智能世界中,繁荣的未来会是什么样子?与数百万人互动的人工智能系统意味着什么?

以及 Claude 的宪法等文件的内容——该宪法详细描述了塑造 Claude 的价值观和行为。哲学家、神职人员、律师、作家、心理学家和公民领袖在相关问题上做了大量工作,我们向这些个人、他们的社区和组织学习非常重要。

我们还希望利用这个机会分享我们对前沿人工智能系统发展的了解、我们认为这些系统将对社会产生的影响以及我们认为需要采取哪些措施来减轻其风险。

这项工作正处于早期阶段,但我们希望这些对话能够为开发 Claude 的实际工作提供信息,例如 Claude 宪法的内容、我们训练 Claude 体现的价值观以及我们选择评估的行为范围。

从道德形成开始当我们编写 Claude 的宪法时,我们向来自不同领域和传统的人们寻求对文件中阐述的价值观的反馈和意见。这些早期的交流后来发展成为关于人工智能系统道德形成的更广泛的研究工作流。

我们的第一次对话是与来自宗教、哲学和文化社区的人们进行的,这些社区有着思考美德、品格以及过上美好生活意味着什么的悠久传统。人工智能模型是在大量人类写作上训练的。从所有这些文本中,它们学会了说话、推理和做出选择的方式。

然后,开发人员通过训练进一步塑造这一点——选择要加强哪些模式、要保留哪些模式以及我们希望它们培养什么样的品格。这引发了关于如何塑造人工智能系统特征的问题:人工智能优秀意味着什么?它应该表现出哪些特征和行为,以及在什么情况下?

品格如何变得足够有韧性,能够承受压力而不屈服于阿谀奉承等行为?我们一直在与来自宗教、哲学和人文主义传统以及不同政治信仰的思想家和实践者会面,了解他们如何思考这些问题。这项工作并不是要将我们的模型与任何一个传统的世界观保持一致;

我们希望 Claude 以同等深度和严谨的方式从全方位的观点——宗教、世俗、政治——中汲取灵感(事实上,这是 Claude 宪法中规定的原则之一)。我们在这些对话中追求的是对良好品格实际上如何形成的仔细、积累的思考。

即使在这个早期阶段,这些对话也在产生可供尝试的想法。在一次与从事神经科学和品格形成交叉领域工作的学者的会议中,我们不断回到其他人在道德发展中所扮演的角色。导师或赞助人可以充当外部良心,当你可能被迫采取违背自己价值观的行动时,可以求助的“安全他人”。

我们想知道类似的东西是否对模型有帮助。因此,我们尝试为 Claude 提供一个可以在任务中调用的工具,该工具会返回对其自身道德承诺的简短提醒。Claude 在关键时刻,就在采取重大行动之前,使用了该工具,经常指出其自身的利益冲突。

使用融入 Claude 决策循环的工具进行的实验显示,在几项内部对齐评估中,失准行为的发生率明显较低。我们仍在弄清楚提醒本身与暂停反思行为之间的影响有多大,并计划很快分享更多结果。这些讨论是众多讨论中的第一次,我们感谢所有已经给予我们时间和诚实观点的人。

下一步是什么在未来的几个月里,我们计划与更多团体接触——包括法律学者、心理学家、作家和公民机构。许多对话将超越道德形成,转向更广泛的问题,即人工智能如何重塑工作、机构和权力分配。我们将继续深化我们已经建立的关系,根据我们的研究来测试我们听到的内容,并分享我们学到的东西。

相关内容Anthropic 在 H 轮融资中筹集了 650 亿美元,后估值为 9650 亿美元阅读更多介绍 Claude Opus 4.8Anthropic 开设米兰办事处,为意大利企业、研究者和开发者提供支持我们将在米兰开设一个新办事处,这是我们在欧洲的第六个办事处。

阅读更多

原文出处
Widening the conversation on frontier AI

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读