IT之家 10月04日
腾讯研究AI游戏战略思考新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯研究团队开发了创新的TiG(Think in Games)框架,旨在解决当前AI模型在游戏中缺乏战略性思考的局限。该框架通过在《王者荣耀》等游戏场景中训练AI,使其能够同步进行思考和行动。研究人员定义了40种宏观行动,并通过监督学习和强化学习相结合的方式训练模型。最终,经过TiG框架训练的模型不仅能制定并执行策略,还能清晰地解释其战略决策的理由,如识别薄弱防御塔并预测敌方埋伏。测试结果显示,使用TiG框架训练的Qwen模型在决策准确率上显著超越了对照组,部分模型准确率提升近30个百分点。

🎯 **AI战略思考新框架TiG的提出**:腾讯研究团队为解决AI在游戏中“能玩但不理解决策”的“功能鸿沟”问题,研发了TiG(Think in Games)框架,实现了AI在游戏中的同步思考与行动,弥补了传统AI模型在战略深度上的不足。

🎮 **《王者荣耀》作为训练平台与方法**:研究团队以《王者荣耀》为训练范本,通过匿名标准化赛事数据定义了40种宏观行动,并采用监督学习掌握基本策略,再通过奖励机制进行强化学习,让AI在特定场景下选择最佳策略并解释原因,实现了从“执行”到“理解”的飞跃。

📊 **模型性能显著提升**:在与DeepSeek-R1等对照组的对比测试中,经过TiG框架训练的Qwen模型展现出优异的性能。例如,Qwen3-14B模型的决策准确率达到90.91%,超越了对照组,Qwen2.5-32B和Qwen2.5-14B模型的准确率也分别从66.67%和53.25%大幅提升至86.84%和83.12%,验证了TiG框架的有效性。

💡 **AI决策的透明化与可解释性**:TiG框架训练出的模型不仅能够制定有效的行动计划,还能对其战略决策提供清晰的解释,例如AI能指出特定防御塔防守薄弱是理想的进攻目标,并预警潜在的敌方埋伏,这使得AI在游戏中的决策过程更加透明和易于理解。

IT之家 10 月 4 日消息,据 decoder 今天报道,腾讯研究人员最近用《王者荣耀》游戏作为训练平台,探索如何让 AI 在游戏中学会“战略性思考”,研究全新 TiG(Think in Games)框架,相关成果已发表于 Hugging Face 平台和 arXiv 期刊

研究团队指出,目前的 AI 模型存在明显的功能鸿沟,以游戏为取向的 AI 能正常游玩但无法理解自己所做的决策,而语言模型虽然可以推理策略但很难真正执行操作,为此他们研发了全新 TiG 框架,让模型在游戏中同步思考、行动。

团队选择以《王者荣耀》游戏作为训练范本,先使用匿名且标准化的赛事数据定义推上路、击杀暴君、守家等 40 种宏观行动,胜负回数均衡,AI 模型们必须要在每个定义好的场景下选择最佳策略,并解释其战略缘由。

具体来说,训练分为两个阶段,首先是在监督中学习,弄清楚这些策略的基本机制;随后通过奖励机制进行强化学习,如果行动正确能得 1 分,错误行动则得 0 分。

随后团队测试了多种语言模型,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作为对照组;先从 DeepSeek-R1 提炼高质量训练数据,然后使用群体相对策略优化(GRPO)技术比较不同策略之间的优劣

最终经过 TiG 框架训练的模型不仅能制定行动计划还能解释原因,例如 AI 会指出某个防御塔防守薄弱,是理想的进攻目标,但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。

最终测试结果如下:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

腾讯 AI 游戏AI 战略思考 王者荣耀 Tencent AI Game AI Strategic Thinking Honor of Kings
相关文章