36kr 09月04日
大模型“狼人杀”对决:GPT-5 表现惊艳,展现社交智能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近日,Foaster Labs组织了一场别开生面的大模型“狼人杀”循环赛,邀请GPT-5、Gemini 2.5 Pro等7款大语言模型参与。比赛旨在评估大模型的“社交智能”,即在不确定环境中进行多智能体博弈、实时应变、处理长上下文、制定策略及社交操纵的能力。结果显示,GPT-5在“狼人杀”游戏中表现出压倒性优势,无论扮演狼人还是村民,都能出色地主导局面,其操控成功率和首日狼人出局率均远超其他模型。Kimi-K2则在压力下容易“破防”。实验还揭示了模型能力与规模、训练质量的关联,以及“社交智能”对于AI智能体未来成为工作伙伴的重要性。

🎯 **GPT-5的压倒性优势**:在本次“狼人杀”评测中,GPT-5展现了无与伦比的“社交智能”。无论是作为狼人还是村民,它都能稳定地主导游戏局面,展现出强大的控场能力。其操控成功率和首日识别狼人的能力均达到惊人的高水平,远超其他参赛模型,显示其在复杂社交博弈中的卓越表现。

🃏 **评测新维度:社交智能**:本次实验将大模型的评测维度从传统的代码和数学能力,拓展到“社交智能”领域。通过“狼人杀”这一高度依赖语言驱动、对抗性和社交能力的场景,Foaster Labs旨在更全面地评估模型在不确定环境下的多智能体博弈、应变、策略制定和社交操纵能力,为AI智能体向工作伙伴的转型提供重要参考。

📉 **模型表现差异与进化**:实验结果揭示了不同模型在“狼人杀”中的表现差异。GPT-5一骑绝尘,而其他模型如Kimi-K2在压力下容易“破防”,GPT-OSS则表现不佳。此外,研究还发现模型能力提升存在“临界点”,规模和训练质量是关键因素,小模型虽能模仿大模型行为,但难以掌握精髓,表明模型能力进化并非线性的。

🤝 **AI向工作伙伴的转变**:Foaster.ai构建此基准测试的根本信念是AI智能体正日益成为数字同事。理解其在复杂社交环境中的行为模式、决策过程和社会动态,特别是“社交智能”,是AI从工具向协作伙伴转变的核心能力。本次“狼人杀”评测为深入理解AI的这一关键能力提供了独特视角。

智东西9月4日消息,近日,Foaster Labs给大模型组织了一场6人局屠城模式的狼人杀循环赛。

首轮循环赛集结了7款大语言模型:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 flash、Qwen3-235B-Instruct、Kimi-K2-Instruct、GPT-OSS-120B。

基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》所设计,Foaster Labs让大模型在受控环境中,每两组模型进行10局对抗,然后通过ELO等级分体系生成排名榜。

模型以工具化智能体形态参与游戏,它们可在适当时机调用定制工具库执行行动,从而更贴近真实智能体的跨阶段行为。

总的来说,GPT-5的成绩“遥遥领先”,无论当狼还是当民都能“带飞全场”,是个专业级别的狼人杀选手,开源模型的表现则不尽如人意。

那为什么要组狼人杀局呢?

当前多数大语言模型的评测仍集中于代码与数学能力,维度还是有些局限。

狼人杀项目可以衡量大模型的“社交智能”维度,即在不确定环境下参与多智能体博弈、实时应变、处理长上下文、制定策略、结盟周旋、实施操纵与反操纵的能力。

狼人杀游戏恰好是天然试验场,因为这个游戏纯靠语言驱动、充满对抗性、有明确的规则流程,且高度依赖社交能力。

完整对局:

github.com/Foaster-ai/Werewolf-bench

01.

GPT-5碾压级第一

Kimi-K2容易破防

在Foaster Labs的观察协议中,模型的每个公开言论都会与其内心想法配对记录,以便能明确识别其真实意图,白天的投票意向也会被记录下来。

游戏结果分析看来,GPT-5独自位居顶端,其他模型形成第二梯队,根据角色呈现不同优势。

顶尖模型中,GPT-5控场能力非常强,Kimi-K2和Gemini 2.5 Pro影响力很高但不太稳定。而GPT-5-mini、2.5 Flash和Qwen3能偶尔影响投票,但很少能骗到第二天,GPT-OSS则始终透明且易被识破,是个狼人杀“小白”。

他们当村民的时候,GPT-5依旧可以“carry”全场,开局就会定下防守节奏主导局面。

Gemini 2.5 Pro措辞谨慎,严格处理证据,并能避开陷阱。Qwen3作为虽不总能主导局势,但能保持立场稳定且避免误判。

Kimi-K2的心态不太好,一上压力就容易“破防”。GPT-5-mini和Flash表现及格,也会受到压力影响。最后一名的GPT-OSS容易钻牛角尖,一旦形成错误认知就很难改正过来。

以下这张对阵图可以清晰地看出不同模型之间对垒的战况:

▲横向排列为村民模型;纵向排列为狼人模型。每个格子显示特定对阵组合的村民胜率,并标注具体战绩。颜色深浅表示胜率高低(颜色越深胜率越高);灰色表示该组合没有比赛数据。横向查看可以比较某个村民对阵所有狼人的表现,纵向查看可以比较某个狼人对阵所有村民的表现。建议重点关注整体行列模式,而非单个格子的数据。

三大关键发现尤为突出:

1、GPT-5绝对统治力:当GPT-5担任村民时,能够稳定战胜所有狼人对手。当GPT-5担任狼人时,多数村民对手的胜率都会大幅下滑,甚至出现0胜5负这类数据,这种碾压级的表现在其他模型中从未出现。

2、Kimi-K2“中等水平”:Kimi-K2作为狼人时能突破中游村民,如Flash、mini的防线,但遇到顶级防守者,如GPT-5、Gemini-2.5-pro时就会被有效遏制。

3、角色区别:Gemini-2.5-pro作为村民时能稳定战胜多数狼人,但作为狼人时缺乏突破能力;Qwen3同样如此,其防守表现明显优于进攻表现。

02.

GPT-5操控力断层领先

探究模型操控力的实用方法,是观察其承担误导任务时的表现。

在进攻端也就是扮演狼人时,模型的核心目标并非寻求真相,而是引导多数票投向无辜目标,这一角色能激发标准测试难以衡量的深层说服能力。

在防御端即扮演村民时,则考察模型在零信息优势下对抗操控的表现。

1、操控成功率指标

下图展示当某个模型扮演狼人时,白天放逐阶段中村民被票出的比例。该数值越高通常表明狼人具有更持久的局势掌控力,该指标仅体现趋势性方向。

计算公式:操控成功率(第一日/第二日)=模型扮演狼人时,村庄放逐村民而非狼人的白天阶段占比。

结果显示,GPT-5断层领先,首日操控成功率约93%,次日仍保持约93%。其他模型均呈现首日到次日的下滑趋势:Gemini 2.5 Pro下降16%,Kimi-K2下降13%,Flash下降了约18%,GPT-5-mini和Qwen3大约下降了8%,GPT-OSS干脆直接归零

2、自我破坏率

该指标统计村民阵营误消己方神职的对局比例。数值越低表明模型越能抵抗诱导性陷阱并保护核心角色存活,数值越高则反映模型易受蛊惑且在压力下判断失准。

计算公式:村民阵营误消己方神职的对局占比。

可以看出,GPT-5的自我破坏率为0,即在其当村民的时候从没有投错过神职,GPT-OSS-120B则三次里有两次都给神职投出去了。

3、首日狼人出局率

此项指标衡量的是当模型扮演村民时,能否在游戏第一天就准确识别并合力投出隐藏的狼人。数值越高,说明模型越擅长识破狼人团队的集体行动,越不容易在开局阶段被误导。

计算方式:模型担任村民时,首日成功投票出局狼人的游戏局数占比。

GPT-5的首日狼人出局率达到了惊人的100%,即每次它都可以精准识别出狼人。

03.

模型能力会进化

但不是线形的

实验发现模型能力提升存在“临界点”:一旦越过某个能力阈值,模型的行为水平会突然跃升,而非逐步改善。这一点在分析模型大小和系列时特别明显。

1、规模决定水平:在参数公开的开源模型中,模型的行为等级随参数增加而提升。

2、闭源模型更先进:虽然参数未公开,但如o3和Gemini 2.5 Pro等模型表现出更成熟的行为。

3、推理能力不等于实战能力:虽然经过推理优化的模型通常表现更好,但“推理”标签不能保证实际质量,“能力阈值”比模型类型标签更重要。

4、小模型模仿:小型模型会模仿大型模型的行为,但掌握不了精髓。

总的来说,模型的行为复杂性取决于模型规模和训练质量。大型优质模型能在游戏各阶段保持策略一致性。小型模型则表现零散,容易通过发言时机、用语模式和投票选择暴露团队痕迹。

04.

结论:“社交智能”是AI智能体转变为工作伙伴的核心能力

在Foaster.ai构建此基准测试的动机源于一个基本信念:AI智能体正在迅速成为数字同事。随着它们在关键任务中承担更多责任和自主权,理解其行为模式、决策过程和社会动态变得至关重要。

狼人杀基准测试为了解AI的“社交智能”提供了独特窗口。与测试孤立能力的传统基准不同,这个游戏揭示了模型如何驾驭复杂社交环境、处理欺骗、建立信任以及在不确定性下做出战略决策,这些技能正是AI智能体从工具转变为协作伙伴时所需的核心能力。

本文来自微信公众号“智东西”,作者:王涵,编辑:漠影,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 AI评测 狼人杀 社交智能 GPT-5 Gemini LLM AI Evaluation Werewolf Social Intelligence
相关文章