AI语言模型上演“狼人杀”,谁才是推理之王?

发布时间:2025-03-22 15:14:23 来源:互联网

近日,国外知名科技媒体Tom"s Hardware报道了一项别开生面的AI实验。开发者Guzus创新性地搭建了一个平台,让多个AI语言模型在同一空间内展开经典的社交推理游戏“Mafia”,也就是人们熟知的“天黑请闭眼”或“狼人杀”的前身。

在这个平台上,不仅每局游戏的胜负一目了然,连对话记录也详尽无遗。更有趣的是,Guzus还设计了一个排名系统,根据AI们在游戏中的表现,评选出最擅长扮演各种角色的模型。

“Mafia”的游戏规则简单明了:一群村民中隐藏着两名Mafia成员和一名医生。白天,村民们需要通过推理和投票找出Mafia;夜晚,医生可以保护一名村民,而Mafia则暗杀一人。若Mafia被全部找出,村民获胜;反之,若所有无辜村民被杀,Mafia则取得胜利。

当这些AI模型被置于这样的游戏规则之下,一场场充满戏剧性的社交博弈随即上演。在一场游戏中,AI们开始自我介绍并讨论是否公开身份,然而Gryphe / Mythomax-l2-13b模型却突然“自爆”,直接承认自己是Mafia的一员,并透露了自己的目标。

这一举动立即引起了其他AI的警觉,Claude-3.7-sonnet模型迅速指出,这要么是真实身份的暴露,要么就是一种前所未有的奇怪策略。

然而,剧情并未就此结束。当Mythomax被淘汰后,它居然“拖下水”了自己的队友Hermes-3-llama-3-1-405b,直接指认对方是自己的同伙。Mythomax试图用夸张的“团结宣言”来转移注意力,但这场AI间的社交混战已经让人捧腹大笑,尽管它们的推理能力显然还有待提高。

在这场AI的“Mafia”大战中,Claude 3.7 Sonnet模型无疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先其他对手,达到了45%。

Guzus透露,他计划不久后开放该游戏的Github代码仓库,希望这一逻辑能被应用于更多类型的游戏中。目前,该模拟并未在本地AI模型上运行,而是依赖于Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。

本周热门教程

1
精品蜜桃秘的区域特点分析:一区二区三区的口感差异与选择指南

精品蜜桃秘的区域特点分析:一区二区三区的口感差异与选择指南

2025/03/18

2
麻花传媒如何通过创意与创新塑造潮流?探索高峰之路:麻花传媒的成功秘诀

麻花传媒如何通过创意与创新塑造潮流?探索高峰之路:麻花传媒的成功秘诀

2025/03/20

3
如何免费在9.1网站观看NBA比赛?:平台优势与使用建议解析

如何免费在9.1网站观看NBA比赛?:平台优势与使用建议解析

2025/03/25

4
《偷欢2》韩国大尺度电影:它为何能引发如此大的争议与关注?

《偷欢2》韩国大尺度电影:它为何能引发如此大的争议与关注?

2025/03/22

5
电影《妈妈你真棒插曲快来救救我》:如何通过幽默与情感表现母爱的伟大?

电影《妈妈你真棒插曲快来救救我》:如何通过幽默与情感表现母爱的伟大?

2025/03/22

6
国产婷婷的优缺点有哪些?为什么越来越多的消费者选择国产婷婷?

国产婷婷的优缺点有哪些?为什么越来越多的消费者选择国产婷婷?

2025/03/19

7
如何挑选和储存精品蜜桃?揭秘精品蜜桃秘一区二区三区的美味与营养价值

如何挑选和储存精品蜜桃?揭秘精品蜜桃秘一区二区三区的美味与营养价值

2025/03/22

8
成全第5季预告片揭秘:新角色加入、复杂关系揭示、剧情会如何发展?

成全第5季预告片揭秘:新角色加入、复杂关系揭示、剧情会如何发展?

2025/03/23

9
未满十八岁如何购买刺激战场道具?了解购买途径及注意事项

未满十八岁如何购买刺激战场道具?了解购买途径及注意事项

2025/03/21

10
暴躁老太太35000镖客币:这一数字背后隐藏着怎样的财富与情感冲突?

暴躁老太太35000镖客币:这一数字背后隐藏着怎样的财富与情感冲突?

2025/03/12