Kimi K2 Thinking模型发布,在多项基准测试中超越闭源模型,尤其在Agentic能力和推理方面表现突出。该模型拥有万亿参数,采用MoE架构,支持256k上下文窗口,并应用原生INT4量化技术,显著控制了训练和推理成本。其核心特性是强大的Agent能力,可连续执行大量工具调用。Kimi K2 Thinking在架构上继承了DeepSeek的优点,并通过月之暗面自身的工程能力,实现了训练稳定性、原生量化推理和长程任务执行等关键突破。尽管其部分SOTA分数来自特殊模式,且在编程和多模态方面仍有提升空间,但Kimi K2 Thinking的发布再次证明了开源AI社区的强大创新力。
💡 Kimi K2 Thinking模型在多项基准测试中取得了SOTA(State-of-the-Art)成绩,部分指标甚至超越了GPT-5等顶尖闭源模型,标志着开源AI在性能上取得了重大突破。其在HLE(Humanity's Last Exam)text-only子集上的表现尤为亮眼,工具增强版得分达到44.9%,高于GPT-5的41.7%。
2025年11月6日,Hugging Face 联合创始人 Thomas Wolf 在 X 上的感慨,精准概括了Kimi K2 Thinking模型发布后所引发的讨论。
Kimi K2 Thinking在多个基准测试中取得了亮眼的成绩,追平、乃至超过了SOTA的闭源模型。例如,在HLE(Humanity's Last Exam)text-only子集的基准上,其工具增强版得分达到44.9%,超过了GPT-5的41.7% 。
Kimi K2 Thinking是基于 Kimi K2 模型训练而来的,专注于提升Agentic能力和推理能力。这是一个拥有1万亿总参数的混合专家模型(Mixture-of-Experts, MoE),每次推理激活约320亿参数,支持256k的上下文窗口,并采用了原生INT4量化技术。设计思路是在保持巨大模型规模的同时,想办法控制计算成本和训练成本。据CNBC援引知情人士的报道,该模型的训练成本仅为460万美元。作为对比,DeepSeek披露的 V3训练成本(租赁价,正式训练阶段)是560 万美元,R1为29.4万美元。这里主要考虑的是GPU预训练费用,不包括研发、基础设施等投资。
Kimi K2 Thinking的一个核心特性是Agent能力,官方宣称它能够连续执行200-300次工具调用来解决复杂问题。Grok-4等闭源阵营广泛采用RL提升工具使用与长程规划,但在开源模型中看到如此的实现还是第一次。它表明开源社区正在快速跟上智能体技术的前沿,同时也对模型托管服务提出了更高的要求。
Kimi K2 Thinking目前还没有发布技术报告,仅有技术博客、使用文档,未披露它的训练数据、RL细节或配方。模型发布后不久,技术社区的关于模型架构本身的讨论也开始出现。在X和Reddit上,一张将其与DeepSeek模型并排比较的架构图又开始流传,引发了关于其技术渊源的讨论。
Kimi K2 Thinking的发布,给人的感觉就像是开源AI社区又一次集体狂欢。它站在DeepSeek这样所有优秀开源成果之上,想明白了自己此阶段最重要的性能目标,对细节进行改进,对训练效率进行提高,得到一个可以在今天最关键方向上超过闭源最强模型的新开源模型。然后这个模型也给开源社区带来反馈和启发,同时它也是Kimi下一代更大更完整模型的一块拼图——也许下一次DeepSeek时刻不远了,而且它可能真的不需要由DeepSeek自己带来。