原创 镜山 2025-09-24 17:20 北京
不止于快,美团新「龙猫」模型学会深度思考了

💡 **模型能力飞跃:** 美团新推出的LongCat-Flash-Thinking模型,在保持“快”的基础上,大幅提升了逻辑、数学、代码等方面的推理能力,部分测试结果甚至超越了部分闭源SOTA模型,显示出其在基础模型领域的强大实力。
🏞️ **场景化优势显著:** 美团拥有独特的线下生活场景数据和物理基础设施,这为其大模型提供了“真实世界+物理基础设施”的坚实底座。LongCat-Flash-Thinking能够将AI能力深度注入这些场景,以打造提供咨询决策的“生活Agent”,这是纯线上公司所不具备的竞争优势。
⚙️ **系统性技术创新:** 该模型的优异表现源于其数据、训练和工程方面的系统性创新。通过“长思维链冷启动”激活推理天赋,采用“领域并行”框架培养专业能力,并辅以自研的DORA工业级强化学习系统提升训练效率,确保了模型在复杂任务上的高效表现。
🛠️ **高效的工具调用:** LongCat-Flash-Thinking在Agent能力上表现突出,尤其体现在其“双路径推理框架”上。模型能够智能判断何时自行计算,何时调用外部工具,显著降低了推理成本并提高了准确率,实现了性能与效率的平衡,为实际应用控制成本提供了关键支持。
🚀 **快速迭代与落地:** 美团在AI领域的步伐明显加快,短时间内接连发布了LongCat-Flash-Chat和LongCat-Flash-Thinking模型,并迅速将其落地到AI Agent应用“小美”,体现了其强调模型“快、好用、平衡”以及AI Agent提供“新体验”的产品理念。
原创 镜山 2025-09-24 17:20 北京
不止于快,美团新「龙猫」模型学会深度思考了
相比之前的 Flash-Chat 版本,这次在保持「超快」速度的同时,精准度和网页浏览的复杂性都有了进一步提升。我录制了一个动图,没有进行任何的加速。你可以直观地感受到 LongCat-Flash-Thinking 的速度:我注意到了它的思考链,它的思路并不是简单地从网上随便拎几家餐厅,而是有条理地展开。它首先扫了一遍搜索结果,把网页中反复出现的店铺名字记录下来。接着,它没有停在「长名单」这一步,而是进一步把餐厅分门别类。分类整理之后,它还会考虑性价比和位置,甚至它还强调要结合多个来源,避免被某个单一网页带偏。从这个案例可以看到,LongCat-Flash-Thinking 除了保持「速度」之外,思维模式也非常成熟了:此外,参考源里很自然地看到大众点评页面:接下来,我们来测试一下它的编码能力。番茄学习计时器输入提示词:帮我找找鸟巢附近的美食。
其实我个人对这个配色并不是特别喜欢,所以我让它再进行一次前端 UI 的修改。提示词如下:做一个番茄学习计时器
非常值得我关注的一件事就是,它对于整个代码的修改是非常非常快的。大概花费的时间也就在几秒钟之内,它就能将一整轮的代码全部修改完毕,最后给出的效果也还不错:PPT 卡片可视化能力紧接着,我让它把自己的技术报告的大部分内容,做成 Html 可视化,以便查看它对颜色以及重点的理解能力。提示词如下:黑白极简风
你能看到,它创建了一个单页滚动式的设计,每个部分用一个卡片展示,包含标题和要点内容:在它生成的效果里面,所有的内容,包括序列号、重点文字的颜色、大标题、次标题,以及每个方块的底色和 PPT 卡片的底色的表现,其实都还可以。甚至在它的思维链里,它还着重去找了一下美团的经典橙配色。美团商家后台看板然后我们再来看一个比较有场景的问题:让它给美团外卖商家做一个后台的看板。提示词如下:将以下技术报告内容,进行可视化,PPT 卡片形式
你能看到整体采用了深色侧边栏 + 浅色主内容区,符合常见的 SaaS 仪表盘风格。4 个核心指标(订单总数、销售额、客单价、完成率)排在最上方,信息结构比较直观,重点也还比较突出。柱状图和环形图也简洁清晰,颜色区分度较好,没有出现信息过载。最主要是它生成的速度非常快。逻辑推理测试我最近还在网络上看到了一些很有意思的测试逻辑推理测试题,现在我们拿来对比测试一下 ChatGPT-5 和 LongCat-Flash-Thinking。题目为:给美团商家做一个后台看板,美观点。
这道题的答案其实是 C。因为尽管文中提到目前每年可节省 5 万美元,但我们无法在没有关于未来表现或计划调整的更多信息的情况下,假设这种节省会连续维持 4 年。我们先来看看 ChatGPT 5 的表现,可能是因为「不屑」开 Thinking 的原因,上来就答错了(不过在之后的测试里,GPT-5 也意识到了正确答案):再来看看 LongCat-Flash-Thinking,它在 3 秒内就几乎给出了完整的答案和理由。首先,它准确提取了段落中的关键信息,在此基础上,答案并没有停留在机械计算上,而是先通过「5 万 × 4 年 = 20 万」给出一个直观的推算,再进一步指出未来扩展带来的不确定性,可能使节省金额高于或低于 20 万。这样的推理路径比较清晰完整,既考虑了已知事实,也展示了信息缺口。最终,它选择了「无法确定」作为结论,避免了过度推理:「技术报告」里的 3 个核心:数据、训练、工程下面我们来看一看 LongCat-Flash-Thinking 在各个基准测试上的表现。 现在的它已经在多个关键推理领域都取得了突破性的成果。首先,它在代码、数学、Agent、形式化推理和通用推理等多个高难度、高复杂度的任务上都达到了开源模型的 SOTA 水平,甚至在部分任务上超越了如 Gemini-2.5 Pro 和 GPT-5-Thinking 等 SOTA 的闭源模型。而且,与其他开源模型(如 Qwen3-235B-A22B-2507-thinking,GLM-4.5,DeepSeek-V3.1)相比,LongCat-Flash-Thinking 在绝大多数评测中都保持着比较明显的领先优势。所以,我就非常好奇它到底是如何做到这样的基准测试评分的。然后,我又仔细地去翻了翻他们的技术报告。有兴趣的同学们,也可以去翻一翻,看一看现在做大模型的思路是什么。链接如下:https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf首先,就是他们的训练流程比较有意思。核心思想是:先通过「冷启动(不在无效数据上浪费时间)」让模型学会深度思考,再通过「领域并行」的强化学习(RL)让模型在各个专业领域成为专家,最后将这些专家能力融合,并进行通用能力训练,最终得到一个强大而全面的模型。LongCat-Flash-Thinking 的训练流程可以说,LongCat-Flash-Thinking 现在的性能表现并非偶然,深挖其技术报告,会发现其背后是一整套贯穿数据、训练和工程的系统性创新。我们稍微进行了整理。第一步:用「长思维链」唤醒模型的推理天赋。模型能力的根基在于其数据。报告里就说了,传统模型之所以推理能力平庸,是因为它们的「食粮」中缺少推理密集型内容(如STEM 和编程),也缺乏长思维链的结构化范例。为此,团队为模型设计了一套「长思维链冷启动」方式。在训练初期,就有策略地给模型「喂」下大量高难度的数学竞赛题和编程算法,从而系统性地激活了其沉睡的推理能力。下面就是他们在监督微调(SFT)阶段,「喂」的数据构成图:在此之上,模型还通过监督微调(SFT)学会了两招:【1】一是与 Lean4 证明服务器联动,生成机器都能验证的形式化数学证明;【2】二是通过创新的「双路径评估」流程,学会判断何时及如何借助外部工具解决难题。第二步:用「领域并行」框架避免「学杂了」。有了以上的基础,如何在更高阶的强化学习中稳定提升便成了核心挑战。传统混合训练常导致不同领域的知识相互干扰。美团技术团队的解法是「先分后合」:他们先针对 STEM、代码、Agent 这 3 个核心领域,耐心培养出三个独立的「专家模型」。当这些专家在各自领域都有了比较好的效果后,再用模型融合,将所有「专家技能」无缝整合到一个统一模型中。融合模型在 STEM 强化学习、代码强化学习以及 Agentic 强化学习后的性能(%)。其目标是创造一个集众家之所长,在每个专业领域都接近最优解的「全能选手」。最后,当美团发布了他们的新模型之后,很多外网的技术论坛以及用户其实都对 1 个点特别感兴趣:DORA。第三步:自研系统 DORA 。再好的方法论也需要强大的工程系统来落地。大规模强化学习训练很复杂,有很多像是设备间的等待和空闲这样的「效率杀手」。直观点说,训练一个大模型,就像要它不断「做题—改错—再做题」。但问题是:如果只用最新版本的模型去「做题」,效率不高;如果设备一会儿闲着,一会儿忙,资源浪费。当我浏览技术报告的过程中,发现美团团队自研了一个名为 DORA 的工业级强化学习框架。它的核心是一种「异步流式」架构,就像一条永不停歇的流水线,任务完成一个就流向下个环节,彻底告别了「木桶效应」式的等待。更简单点理解的话,DORA 就是一个「聪明的排班系统」,让不同的机器各司其职,又能灵活切换:【1】一部分机器,专门负责生成答案。【2】另一部分机器,灵活切换角色:有时帮忙生成答案,有时负责「打分」和「改错」。最终,这套系统将整体训练效率提升了 3 倍以上。总而言之,LongCat-Flash-Thinking 的训练路径十分清晰:用优质的数据,用聪明的框架,用好用的系统确保这一切能够顺利实现。段落 1: “该公司的可持续发展计划在过去一年中减少了 25% 的能源消耗,每年大约节省 5 万美元。该计划包括安装太阳能电池板、升级 LED 照明,以及在所有设施中引入节能设备。管理层计划在明年将该计划扩展到国际办公室。” 问题 1: 该公司将在未来四年通过其可持续发展计划节省 20 万美元。A) 正确B) 错误 C) 无法确定
所以,结合起来看,在实际体验和阅读技术报告过程之中,你能明显地感受到,与一些追求「大而全」的探索不同,美团的节奏更强调:模型要快,要好用,要平衡,AI Agent 要能提供「新体验」。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑