十字路口Crossing 09月24日 19:06
美团新模型LongCat-Flash-Thinking:不止快,更学会深度思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

美团近期开源了其大模型LongCat-Flash-Thinking,该模型在保持高速生成的同时,显著增强了逻辑、数学和代码推理能力,部分任务表现逼近GPT-5-Thinking。美团的独特优势在于其丰富的线下生活场景数据和物理基础设施,这使得其大模型能更好地注入真实场景,提供咨询决策的“生活Agent”。通过联网搜索、编码、可视化和逻辑推理等场景测试,LongCat-Flash-Thinking展现了其成熟的思维模式和高效的工具调用能力。其技术报告揭示了模型在数据、训练和工程方面的系统性创新,包括“长思维链冷启动”、“领域并行”框架以及自研的DORA强化学习系统,旨在实现模型能力的平衡与高效。

💡 **模型能力飞跃:** 美团新推出的LongCat-Flash-Thinking模型,在保持“快”的基础上,大幅提升了逻辑、数学、代码等方面的推理能力,部分测试结果甚至超越了部分闭源SOTA模型,显示出其在基础模型领域的强大实力。

🏞️ **场景化优势显著:** 美团拥有独特的线下生活场景数据和物理基础设施,这为其大模型提供了“真实世界+物理基础设施”的坚实底座。LongCat-Flash-Thinking能够将AI能力深度注入这些场景,以打造提供咨询决策的“生活Agent”,这是纯线上公司所不具备的竞争优势。

⚙️ **系统性技术创新:** 该模型的优异表现源于其数据、训练和工程方面的系统性创新。通过“长思维链冷启动”激活推理天赋,采用“领域并行”框架培养专业能力,并辅以自研的DORA工业级强化学习系统提升训练效率,确保了模型在复杂任务上的高效表现。

🛠️ **高效的工具调用:** LongCat-Flash-Thinking在Agent能力上表现突出,尤其体现在其“双路径推理框架”上。模型能够智能判断何时自行计算,何时调用外部工具,显著降低了推理成本并提高了准确率,实现了性能与效率的平衡,为实际应用控制成本提供了关键支持。

🚀 **快速迭代与落地:** 美团在AI领域的步伐明显加快,短时间内接连发布了LongCat-Flash-Chat和LongCat-Flash-Thinking模型,并迅速将其落地到AI Agent应用“小美”,体现了其强调模型“快、好用、平衡”以及AI Agent提供“新体验”的产品理念。

原创 镜山 2025-09-24 17:20 北京

不止于快,美团新「龙猫」模型学会深度思考了

👦🏻 作者: 镜山

🥷 编辑: Koji

🧑‍🎨 排版: NCon

AI 基础模型的竞速赛,正逐渐从实验室走向街头巷尾。那些贴近日常、充满烟火气的「扫地僧」们,也开始用 AI 打开新的入口。

2025 年 8 月底,一个「反差感很强」的消息在技术社区里流传开来:一家大家印象中只和外卖、骑手、到店团购相关的公司,居然在开源平台上刷起了存在感。

这个公司就是美团。

它先是推出了 LongCat-Flash-Chat,凭着一个字——「快」,在 Hugging Face 上风生水起。

紧接着,又拿出 LongCat-Flash-Thinking,在逻辑、数学、代码等推理测试中达到了开源模型的 SOTA 水平,部分任务甚至逼近了GPT-5-Thinking。

这种强烈的「反差感」,瞬间引爆了许多人的好奇心:

为什么是美团?为什么是现在?

因为,美团的独特之处,在于它掌握了最丰富的线下生活场景。其庞大的用户、商家和物流网络,共同构成了一个「真实世界 + 物理基础设施」的坚实底座,这是纯线上公司所不具备的。

而大模型的价值,正是将 AI 注入这些真实场景,无论是智能客服、精准推荐,还是商家支持,最终的目标都是打造一个能提供咨询决策的「生活 Agent」。

🚥接下来,我们会通过几个测试场景来拆解 LongCat-Flash-Thinking 这款模型,最后,再回到技术报告,看看支撑它「场景化能力」的底层逻辑。

不止于「快」,新「龙猫」想得更深了不久前,美团开源的 LongCat-Flash 模型因其生成速度快而受到关注。近期,该团队又推出了后续版本 —— LongCat-Flash-Thinking,称其在推理能力上有所增强。

现在,你已经能看到 LongCat-Flash  模型的下载量都已经非常高了。

LongCat-Flash 是一个非思考型基础模型,但凭借「轻量激活」策略,它的性能已能追平主流大模型。在 Agentic 任务上尤其亮眼。

而它的升级版 LongCat-Flash-Thinking,更是把表现拉高了一个层次:在多个基准测试集上成绩抢眼,推理能力得到了全面提升,同时第一时间开源到了 Hugging Face 与 GitHub。

更值得注意的是,这一次美团继续沿用了 MIT 协议。这意味着,几乎任何人都可以自由地使用、复制、修改、合并、分发,甚至二次商用。

换句话说,你拿到一个 MIT 协议的代码,几乎可以不受限制地二次开发和商用。

我们先来进行几个场景化的测试:

「超快」的联网搜索首先来测试下联网条件下, LongCat-Flash-Thinking 的速度和场景化能力。

提示词如下:

帮我找找鸟巢附近的美食。

相比之前的 Flash-Chat 版本,这次在保持「超快」速度的同时,精准度和网页浏览的复杂性都有了进一步提升。

我录制了一个动图,没有进行任何的加速。你可以直观地感受到 LongCat-Flash-Thinking 的速度:

我注意到了它的思考链,它的思路并不是简单地从网上随便拎几家餐厅,而是有条理地展开。

它首先扫了一遍搜索结果,把网页中反复出现的店铺名字记录下来。接着,它没有停在「长名单」这一步,而是进一步把餐厅分门别类。分类整理之后,它还会考虑性价比和位置,甚至它还强调要结合多个来源,避免被某个单一网页带偏。

从这个案例可以看到,LongCat-Flash-Thinking 除了保持「速度」之外,思维模式也非常成熟了:

此外,参考源里很自然地看到大众点评页面:

接下来,我们来测试一下它的编码能力。

番茄学习计时器输入提示词:

做一个番茄学习计时器

其实我个人对这个配色并不是特别喜欢,所以我让它再进行一次前端 UI 的修改。

提示词如下:

黑白极简风

非常值得我关注的一件事就是,它对于整个代码的修改是非常非常快的。

大概花费的时间也就在几秒钟之内,它就能将一整轮的代码全部修改完毕,最后给出的效果也还不错:

PPT 卡片可视化能力紧接着,我让它把自己的技术报告的大部分内容,做成 Html 可视化,以便查看它对颜色以及重点的理解能力。

提示词如下:

将以下技术报告内容,进行可视化,PPT 卡片形式

你能看到,它创建了一个单页滚动式的设计,每个部分用一个卡片展示,包含标题和要点内容:

在它生成的效果里面,所有的内容,包括序列号、重点文字的颜色、大标题、次标题,以及每个方块的底色和 PPT 卡片的底色的表现,其实都还可以。

甚至在它的思维链里,它还着重去找了一下美团的经典橙配色。

美团商家后台看板然后我们再来看一个比较有场景的问题:让它给美团外卖商家做一个后台的看板。

提示词如下:

给美团商家做一个后台看板,美观点。

你能看到整体采用了深色侧边栏 + 浅色主内容区,符合常见的 SaaS 仪表盘风格。

4 个核心指标(订单总数、销售额、客单价、完成率)排在最上方,信息结构比较直观,重点也还比较突出。

柱状图和环形图也简洁清晰,颜色区分度较好,没有出现信息过载。最主要是它生成的速度非常快。

逻辑推理测试我最近还在网络上看到了一些很有意思的测试逻辑推理测试题,现在我们拿来对比测试一下 ChatGPT-5 和 LongCat-Flash-Thinking。

题目为:

段落 1: “该公司的可持续发展计划在过去一年中减少了 25% 的能源消耗,每年大约节省 5 万美元。该计划包括安装太阳能电池板、升级 LED 照明,以及在所有设施中引入节能设备。管理层计划在明年将该计划扩展到国际办公室。” 问题 1: 该公司将在未来四年通过其可持续发展计划节省 20 万美元。A) 正确B) 错误 C) 无法确定

这道题的答案其实是 C。

因为尽管文中提到目前每年可节省 5 万美元,但我们无法在没有关于未来表现或计划调整的更多信息的情况下,假设这种节省会连续维持 4 年。

我们先来看看 ChatGPT 5 的表现,可能是因为「不屑」开 Thinking 的原因,上来就答错了(不过在之后的测试里,GPT-5 也意识到了正确答案):

再来看看 LongCat-Flash-Thinking,它在 3 秒内就几乎给出了完整的答案和理由。

首先,它准确提取了段落中的关键信息,在此基础上,答案并没有停留在机械计算上,而是先通过「5 万 × 4 年 = 20 万」给出一个直观的推算,再进一步指出未来扩展带来的不确定性,可能使节省金额高于或低于 20 万。

这样的推理路径比较清晰完整,既考虑了已知事实,也展示了信息缺口。最终,它选择了「无法确定」作为结论,避免了过度推理:

「技术报告」里的 3 个核心:数据、训练、工程下面我们来看一看 LongCat-Flash-Thinking  在各个基准测试上的表现。 现在的它已经在多个关键推理领域都取得了突破性的成果。

首先,它在代码、数学、Agent、形式化推理和通用推理等多个高难度、高复杂度的任务上都达到了开源模型的 SOTA 水平,甚至在部分任务上超越了如 Gemini-2.5 Pro 和 GPT-5-Thinking 等 SOTA 的闭源模型。

而且,与其他开源模型(如 Qwen3-235B-A22B-2507-thinking,GLM-4.5,DeepSeek-V3.1)相比,LongCat-Flash-Thinking 在绝大多数评测中都保持着比较明显的领先优势。

所以,我就非常好奇它到底是如何做到这样的基准测试评分的。然后,我又仔细地去翻了翻他们的技术报告。

有兴趣的同学们,也可以去翻一翻,看一看现在做大模型的思路是什么。

链接如下:

https://github.com/meituan-longcat/LongCat-Flash-Thinking/blob/main/tech_report.pdf

首先,就是他们的训练流程比较有意思。

核心思想是:先通过「冷启动(不在无效数据上浪费时间)」让模型学会深度思考,再通过「领域并行」的强化学习(RL)让模型在各个专业领域成为专家,最后将这些专家能力融合,并进行通用能力训练,最终得到一个强大而全面的模型。

LongCat-Flash-Thinking 的训练流程可以说,LongCat-Flash-Thinking 现在的性能表现并非偶然,深挖其技术报告,会发现其背后是一整套贯穿数据、训练和工程的系统性创新。

我们稍微进行了整理。

第一步:用「长思维链」唤醒模型的推理天赋。模型能力的根基在于其数据。

报告里就说了,传统模型之所以推理能力平庸,是因为它们的「食粮」中缺少推理密集型内容(如STEM 和编程),也缺乏长思维链的结构化范例。

为此,团队为模型设计了一套「长思维链冷启动」方式。在训练初期,就有策略地给模型「喂」下大量高难度的数学竞赛题和编程算法,从而系统性地激活了其沉睡的推理能力。

下面就是他们在监督微调(SFT)阶段,「喂」的数据构成图:

在此之上,模型还通过监督微调(SFT)学会了两招:

【1】一是与 Lean4 证明服务器联动,生成机器都能验证的形式化数学证明;

【2】二是通过创新的「双路径评估」流程,学会判断何时及如何借助外部工具解决难题。

第二步:用「领域并行」框架避免「学杂了」。有了以上的基础,如何在更高阶的强化学习中稳定提升便成了核心挑战。

传统混合训练常导致不同领域的知识相互干扰。美团技术团队的解法是「先分后合」:

他们先针对 STEM、代码、Agent 这 3 个核心领域,耐心培养出三个独立的「专家模型」。当这些专家在各自领域都有了比较好的效果后,再用模型融合,将所有「专家技能」无缝整合到一个统一模型中。

融合模型在 STEM 强化学习、代码强化学习以及 Agentic 强化学习后的性能(%)。其目标是创造一个集众家之所长,在每个专业领域都接近最优解的「全能选手」。

最后,当美团发布了他们的新模型之后,很多外网的技术论坛以及用户其实都对 1 个点特别感兴趣:DORA。

第三步:自研系统 DORA 。再好的方法论也需要强大的工程系统来落地。

大规模强化学习训练很复杂,有很多像是设备间的等待和空闲这样的「效率杀手」。直观点说,训练一个大模型,就像要它不断「做题—改错—再做题」。但问题是:如果只用最新版本的模型去「做题」,效率不高;如果设备一会儿闲着,一会儿忙,资源浪费。

当我浏览技术报告的过程中,发现美团团队自研了一个名为 DORA 的工业级强化学习框架。

它的核心是一种「异步流式」架构,就像一条永不停歇的流水线,任务完成一个就流向下个环节,彻底告别了「木桶效应」式的等待。

更简单点理解的话,DORA 就是一个「聪明的排班系统」,让不同的机器各司其职,又能灵活切换:

【1】一部分机器,专门负责生成答案。

【2】另一部分机器,灵活切换角色:有时帮忙生成答案,有时负责「打分」和「改错」。

最终,这套系统将整体训练效率提升了 3 倍以上。

总而言之,LongCat-Flash-Thinking 的训练路径十分清晰:

用优质的数据,用聪明的框架,用好用的系统确保这一切能够顺利实现。

「龙猫」的 Agent 能力很值得关注在技术报告的后半部分,我看到了一张图,它是整个技术报告中的一个很大的亮点。

这张图大概指的是美团技术团队做了一张散点图,用来衡量模型性能与平均 Tokens 数对比。它在 AIME-25 这个高难度数学推理任务上,从 准确率(Accuracy) 和 计算成本(Average Tokens) 2 个维度,对几个SOTA AI 模型进行了效率评估。

最重要的是 X 轴,可以简单理解为模型为解决 1 个问题平均需要生成(或处理)的 Tokens 数量。这个数值可以看作是推理成本,越低越好。

LongCat-Flash-Thinking (w/. Tool) (绿色,左侧),在配备了外部工具的情况下,它的准确率保持在 90.00% 的高水平,但平均 Tokens 消耗大幅降低至约 7000 个,甚至比 GPT-5 Thinking 还要少一点

虽然性能上确实要比 GPT-5 Thinking 差一点,但是 LongCat-Flash-Thinking 也确实在性能和效率,这 2 个关键维度上都展现出了「平衡」,实现了「又快又省」。

这对于模型真要拿来用、控制成本来说,太关键了。

因为,其背后反映的其实是 LongCat-Flash-Thinking  在 Agent  能力上的潜能,美团技术团队的说法是,他们给它设计了一套「双路径推理框架」,让模型自己学会了判断:什么时候该自己硬算,什么时候该聪明地调用外部工具来帮忙。

正因为它会「用工具」,才能这么高效地解决难题。这其实是一种非常专注于场景的能力。

尤其是最近,美团在 AI 领域的步伐明显加快了。仅在短短 1 个月内,就先后发布了 LongCat-Flash-Chat 模型与 LongCat-Flash-Thinking  模型,并迅速将大模型能力落地到 AI Agent 应用「小美」

所以,结合起来看,在实际体验和阅读技术报告过程之中,你能明显地感受到,与一些追求「大而全」的探索不同,美团的节奏更强调:模型要快,要好用,要平衡,AI Agent 要能提供「新体验」。

🚥

王兴曾提到的一个观点:很多人容易高估一两年之内 AI 的进展,但又容易低估十年之内它能带来的改变。

今天的「龙猫」或许只是一个开始的信号。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

美团 大模型 AI LongCat-Flash-Thinking 人工智能 深度思考 推理能力 场景化 开源
相关文章