MIT 科技评论 - 本周热榜 17小时前
大模型策略推理能力提升研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

张议文团队利用传统博弈模型为大语言模型开发测试环境,并针对性地开发算法以提升其策略推理能力。研究发现大模型在处理时序依赖决策和理解社交结构信息方面存在不足。团队提出的强化学习训练方式,通过创新的奖励设计和图级别的优势评估,有效融合了模型对其他Agent的策略思考和建模过程,为大模型在社会模拟和投资博弈分析等复杂决策场景中的应用奠定基础。该研究结合了社会心理学、多智能体系统等理论,旨在让大模型在复杂社交环境中能清晰地“计算什么”,而非仅仅“算得更准”。

💡 **策略推理能力挑战:** 研究团队发现,当前大语言模型在多智能体博弈环境中存在决策能力不足的问题,主要体现在难以处理具有时序依赖性的决策,并且对社交结构信息理解有限。模型在作为决策当事者时,与作为旁观者处理时序数据相比,表现出明显的局限性。

🚀 **创新强化学习训练:** 团队开发了一种从多智能体视角出发的强化学习训练方式,其核心创新在于奖励设计和优势评估。奖励设计兼顾了长期最优解和短期最优解,而优势评估则在保留样本级估计的基础上增加了图级别评估,使模型能更全面地考虑环境和其他Agent的策略。

📈 **现实场景抽象与应用:** 研究将现实生活中的投资决策场景抽象为博弈问题,旨在为大模型设计需要战略推理的环境。这种方法不仅适用于投资分析,还能应用于政策影响模拟、经济收益模拟等需要复杂社会推理的场景,推动大模型在“社会性”和“推理性”智能体的发展。

🧠 **通用智能体探索:** 该研究是探索通用智能体(AGI Agent)样态和实现方式的重要一环,关注Agent在社交环境中的能力。通过模拟社会问题、社交关系和博弈游戏,研究团队致力于让模型理解“计算什么”,而非仅仅追求计算的精确性,为Agent辅助人类解决复杂问题提供理论和实践基础。

近日,张议文和所在团队利用传统博弈模型开发了测试大语言模型能力的环境,然后针对模型能力问题进行算法开发,最终验证算法在提升模型策略推理能力的有效性。

大模型在多智能体博弈环境中决策能力不足,具体体现为两点,一个是较难处理时序依赖性的决策,模型代表的智能体Agent是决策的当事人,而不是作为旁观者对时序数据进行处理。另一个是模型较难理解社交结构信息,体现为模型在合作和单独状态下完成类似于我的世界的游戏任务的进度几乎没有差别。

研究团队开发了从多智能体视角进行的强化学习训练方式,算法主要有两个创新点。一是强化学习训练的奖励设计,二是模型对于生成的多个答案的优势评估方式的设计。在奖励设计方面,研究团队把模型平衡长期收益和短期收益的过程用同组比较和同网络参数比较的计算完成。这样可以让模型同时兼顾长期最优解(同一种超参数下的数学可计算的理论最优解)和短期最优解(存在Agent的突变反应的某些特殊轮次)。计算所需的变量较易获得。研究团队通过已有的算法验证了奖励设计的有效性。在优势评估方面,研究团队在保留了DeepSeek提出的强化学习算法GRPO的样本级优势估计的部分的基础上,增加了图级别的优势估计。可以帮助模型进一步重视图的评估。总体来看,研究团队的算法把模型对于环境中其他Agent的策略思考和建模过程融合到了训练的计算过程里。

本次研究旨在将现实场景抽象成博弈问题,利用量化的方式给大模型设计需要战略推理的环境。研究团队利用的是现实生活中投资决策的场景,比如一个公司在决定和哪些供应商、分销商合作时,亦或是决定投资哪几个初创公司时,都需要经过投资分析评估、投决会等等阶段。在签订了投资合同或合作合同后,相关方需要进行一段时间的一定程度的合作投入。那为什么选择这样的场景呢?研究团队在评测阶段发现模型在自身作为当事者且不可回溯的时序决策中表现不好,且较难理解人类社会赋予的一些概念,如社交结构。所以研究团队利用投资分析和合同后的投入作为一个不可回溯的时序依赖决策场景。

近期研究对于模型在社会模拟和类人思考能力的关注逐渐增长。模型本身的语言理解能力和生成能力不足以支撑在复杂问题中的模拟和决策,例如政策影响模拟、经济收益模拟、法律判决模拟。这些场景往往需要模型不只是会进行复杂数学计算,而是更多的融合了人类社会的复杂推理。另一方面,研究团队可以把应用场景主要分成模型作为旁观者和模型作为当事者的两种情况。当模型作为旁观者时,任务往往是直接处理数据得出结论,这要求模型能够理解任务中本身存在的复杂关系。当模型作为当事者的时候,模型代表的Agent是模型决策任务的一部分,也就需要模型具备思考自身和他人的能力,不仅仅是处理固定数据。研究团队的算法可以帮助模型处理当事者环境中的复杂决策问题,即应用于社会模拟中或投资博弈分析中。

在AI大模型的推理能力不断进化的过程中,研究团队看到大模型驱动的智能体(Agent)已经可以作为一个“代理”来辅助人类思考问题和解决问题。这种辅助可以是“工具性的”,比如手机APP自动操作的Agent根据人类需求进行一系列流程的自动操作;辅助也可以是“社会性的”,这要求Agent像一个人一样理解外界环境信息做出反馈,例如近几年非常受关注的Agent社会模拟研究探究人类社会的新闻、法律、经济、社会传播等问题;最后这种辅助可以是“推理性的”,这要求Agent具备像人类一样的思考能力,也就是推理能力,从而帮助人类模拟并解决现实复杂问题。目前AI大模型的发展主要在研究者针对具体问题设计环境测试模型推理能力,并设计算法进行模型能力提升的阶段。

张议文选择来到北京通用人工智能研究院实习,是因为她和合作者们都关注到了大模型为多智能体研究带来的主要发展和革新,就是Agent的自然语言理解和生成能力。这使得由大模型驱动的Agent和传统的数理计算驱动的Agent有着一定的不同,让其和所在团队将有更多方面可以探索为什么大模型目前的能力还不足以成为一个“通用智能体”。这与当今的AI学者们想要追求和探索的内容非常相关,即通用智能体(AGI Agent)的样态和实现方式。

在这样的研究大背景下,研究团队致力于思考Agent在社交环境中的能力,比如利用社会问题、社交关系、博弈游戏等理论进行模型测试环境设计和算法设计。研究团队已经看到了非常多研究大模型数学和代码推理能力的研究,这些研究的目的可以理解为让模型“算得更准”,进而让模型的每一步计算都能被人们看到并理解。但研究团队非常清楚的是,人类具备的智能不只是计算准确,而是在复杂社交环境中可以先清楚自己应该“计算什么”。例如,人们在计算自己在一段关系中应该投入多少之前,往往会回忆、评估、推理自己和多个人的关系或发生过的事情。

本次研究的步骤主要可以分成:理论理解、模型测试、博弈环境搭建、算法开发和实验这些阶段。张议文认为大家可以短时间内磨合互相的做研究习惯以及消除掉因研究方向差别而产生的理论误解,很大程度是因为研究员们都很相信“1+1>2”的思想。伴随磨合阶段,张议文在开题之前做一些模型测试工作。不只局限在博弈场景,也包含了2D的具身场景、经济场景、社交场景。这些测试让研究者们更加明确模型在纯文本社交场景、包含物理任务的社交场景中的能力。便于后期规范的定义模型能力级别和研究问题。前两个阶段虽然不是具体的课题开展,但张议文认为这对课题的成功完成是必不可少的,也是至关重要的。在后面几个阶段,张议文和主要的合作者(清华本科大三直博的同学陈子昂)都在经历多个任务并行的时期,比如研究中途毕业答辩、论文提交、保研的面试。研究团队的合作可以完整进行并完成,也可见研究团队在最开始初期的磨合阶段的重要性。在算法开发阶段,研究团队结合了社会心理学、多智能体系统、控制论领域的理论,这基于通研院融合文理的研究思路。在最终算法测试阶段,研究团队经历了比较折磨的模型调参阶段。非常忙的时间段几乎是早晨醒来就坐地铁赶到通研院,晚上地铁末班之前才回到住处,然后继续远程控制电脑继续做实验。张议文记得最清楚的除了理论、算法、公式之外,就是地铁的末班时间了。也因此多了很多体验,比如连续两周成为地铁站关门前最后一位出站的乘客。

让张议文自己和合作者都印象深刻的是,伴随研究团队整个研究进程,指导研究员都会定期组织研究进度讨论会。这在很大程度上提升研究团队的研究热情,也确保了研究团队即使关注到了研究领域的前沿进展。另外,研究员也会组织不同工作小组之间的交流,以便于研究团队了解其他人做的内容,提出建议和问题。

在研究初期,正好赶上通研院的课程,关于蒙特卡洛和强化学习的理论和应用。课程允许所有在研究院实习的同学旁听,这让刚到通研院实习的张议文有更多机会了解通研院的主线研发内容以及技术架构。同时,帮助她夯实算法的数学基础,便于后期的研究实践。

下一步,研究团队主要是先继续完善目前的研究内容,比如完善数据集和泛化性到更多的涉及到战略推理的场景中。然后继续测试模型在其他场景的能力,同时关注大模型架构的不足之处。

此外,张议文表示自己一直比较结果导向,同时感受和享受斗争的过程。所以无论在什么环境中,都会倾向于感受环境的政策趋势和利用环境中的资源。在北上广的不同城市,会有不一样的政策导向以及资源。张议文的成长经历也和地区的选择紧密关联。

根据黑龙江省高考成绩排名和未来的打算,张议文自己选择了位于广东珠海的BNBU北师香港浸会大学的计算机专业。这所学校提倡的博雅教育让张议文有更多直接用英文进行学习、接触不同专业的同学、探索自己的兴趣爱好的机会。在本科阶段张议文有比较重要的三个决定,这直接影响了张议文未来的学业事业。

张议文在大一决定辅修应用心理学。2019年AI还没有特别火爆,甚至很多大学没有AI专业。因为张议文不想把自己当成一个只会接任务的代码工程师,而是想有更多设计内容而不是单纯执行任务的机会,所以张议文跟导师讨论,了解到了可以通过辅修或旁听课程来更多的学习其他领域的知识。那么学什么领域的呢?张议文在俄语课上跟同桌聊起学校的专业,同桌提到了应用心理学的课程设置。张议文听起来感觉非常有意思,可以多方面了解人和人类社会。然后查了一下计算机和心理学的交叉领域,看到了人机交互和AI。后来张议文继续在主修和辅修的多门课程里面逐步找到自己感兴趣的领域,在计算机领域是图论、复杂网络、算法,在心理学领域是人格心理学、社会心理学、感知心理学。这让张议文在两个非常广泛的学科中逐步收拢自己的兴趣点,直接地影响了张议文在研究生阶段的研究方向选择和坚持。第二个决定是自己选择人际圈。这其实在本科阶段是很重要的,直接影响主要的时间都在做什么。张议文选择的是和计算机系的人一起上课完成作业,和心理学的同学一起讨论他们的实习实践,和商科(市场营销)的同学一起做实习进企业,和艺术类专业的朋友们一起练琴和准备演出。这会让她的本科阶段很忙,但和朋友们的接触让她不断看到新的思维方式和有才华的人。

第三个决定是注重项目制的内容,或者可以说是把经历项目化。在校内,张议文通过组建和带领儿童艺术科普教育团队(15人规模)在珠海市联安市民艺术中心、唐家社区党群服务中心、孤独症儿童关怀组织进行了义工支教活动,并在一年内将团队从疫情期间的只有一个合作方带到3个合作方,成为校内优秀团队。至今该团队仍延续研究团队当时设计的活动创办程序,帮助所在社团稳定发展。另外,在大一到大四张议文都在传统艺术文化体验社中,大三任职社长(150人团队),这让张议文有更多帮助艺术类专业同学完善表演活动的机会。同时她也在跟校友学姐一起做创业项目“灵活找工收容所”,关于学校到职场的过渡期陪伴、资讯、讨论会。在校外,张议文进行了三段商科实习,这让她从非技术角度了解一个大企业的运作和内部架构。每段实习都被看成一个项目,最终也都做出对应领域的成果。例如在腾讯音乐平台产品部做了一个五千万播放量的电台,最短时间成为头部电台,在宝洁完成了分销商合作的各级门店的审查指南,在上海驱动咨询公司完成了影视剧拆解项目为企业人员培训筹备了内容库。之所以项目制内容值得注重,是因为大学时间多数是零散的,比如课程间隙、周末、没课的下午。而完成项目可以充分利用零散的时间,增加大学生活的趣味。到了毕业阶段,可能某门课程具体讲了什么并不一定完全记得,但是一个项目的成果往往印象深刻并永久存在,实际的影响一个群体或一个组织的发展。至今张议文还记得周六早晨6点准时带团队坐大巴车到艺术中心开展活动的场景,也会在毕业后看社团活动推文的时候感到很开心。

在研究生阶段张议文继续以结果为导向,最开始先在学校探索自己感兴趣的研究方向,很容易找到了多智能体博弈这个结合了她的主修辅修和课余经历的方向。其非常感谢港科广红鸟硕士班提供的校外交流机会和项目导师黄同舸老师、李贝津妮老师的指导,让自己实际地走进企业探访学习,由此认识到北京通研院以及多个其他领域的企业。未来张议文会继续进行这个方向以及应用领域的探索,在完成了通研院实习后,近期张议文会在清华大学继续进行法律多智能体博弈的研究。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 策略推理 强化学习 多智能体博弈 社会模拟 Large Models Strategic Reasoning Reinforcement Learning Multi-agent Game Theory Social Simulation
相关文章