月之暗面 Kimi 前天 20:03
Kimi K2 Thinking:新一代开源思考Agent发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Kimi K2 Thinking 是 Kimi 推出的新一代开源思考模型,基于“模型即 Agent”理念训练,原生具备“边思考,边使用工具”的能力。该模型在多项基准测试中达到 SOTA 水平,并在 Agentic 搜索、编程、写作及综合推理能力上全面提升。Kimi K2 Thinking 可自主实现高达 300 步的工具调用,解决复杂问题。其 API 已上线,并支持 INT4 量化以提升推理效率。新模型已集成至 kimi.com 和 Kimi 手机应用,后续 Agent 模式也将升级。

💡 Kimi K2 Thinking 是一款强大的新一代开源思考 Agent,它基于“模型即 Agent”的理念,能够原生实现“边思考,边使用工具”的能力,显著提升了在复杂问题解决方面的表现。

🚀 在多项基准测试中,Kimi K2 Thinking 展现出领先水平,尤其在人类最后的考试(Humanity's Last Exam)中取得了 44.9% 的 SOTA 成绩,并在自主网络浏览能力(BrowseComp)上以 60.2% 的成绩成为新的 SOTA 模型,证明了其在复杂信息收集和推理方面的卓越能力。

💻 模型的 Agentic 编程能力也得到了显著增强,在处理 HTML、React 等前端任务时性能提升明显,能够将创意转化为功能齐全的产品。同时,它能在调用工具的同时进行思考,灵活应对多步骤开发工作流。

✍️ Kimi K2 Thinking 在通用基础能力上也进行了全面升级,包括创意写作、学术研究和个人情感回应。在写作方面,它能将灵感转化为清晰动人的叙述;在学术研究上,它能深度分析信息并保持逻辑严谨;在情感回应上,它表现出更强的同理心和中正平和的立场。

原创 Kimi 2025-11-06 23:15 天津

API 已同步上线

今天我们发布 Kimi K2 Thinking —— Kimi 迄今能力最强的开源思考模型。

Kimi K2 Thinking 是我们基于「模型即 Agent」理念训练的新一代 Thinking Agent,它原生掌握「边思考,边使用工具」的能力。在人类最后的考试(Humanity's Last Exam)、自主网络浏览能力(BrowseComp)、复杂信息收集推理(SEAL-0)等多项基准测试中表现达到 SOTA 水平,并在 Agentic 搜索、Agentic 编程、写作和综合推理能力等方面取得全面提升。

Kimi K2 Thinking 模型无需人类干预,即可凭借持续稳定的深度思考能力自主实现高达 300 步的工具调用,从而帮助用户解决更复杂的问题。这是我们在 Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考 Token 和工具调用的步数,实现更强的 Agent 和推理性能。

Kimi K2 Thinking 模型已上线 kimi.com 和最新版 Kimi 手机应用的常规对话模式。Kimi Agent 模式的底层模型后续也将升级为 Kimi K2 Thinking 模型,带来完整的多步思考和工具调用能力。

Kimi K2 Thinking 模型的 API 可通过 Kimi 开放平台(platform.moonshot.cn)访问。如需自行部署,请在 Hugging FaceModelScope 等平台下载模型。

推理性能全面提升

Kimi K2 Thinking 模型在人类最后的考试(Humanity's Last Exam)中展现出强大的推理与问题解决能力。人类最后的考试是一项涵盖 100 多个专业领域的终极封闭式学术测试。在允许使用工具——搜索、Python、网络浏览工具的同等情况下,Kimi K2 Thinking 在这项基准评测中取得了 44.9% 的 SOTA 成绩。

我们来看一个人类最后的考试中人文类题目推理过程示例。在这个示例中,Kimi K2 Thinking 经过 5 次搜索和推理,结合每步搜索到的新信息,层层深入,最终推理出了答案:

↕ 上下滚动查看完整推理过程

自主搜索与浏览能力全面提升

在复杂搜索和浏览场景中,Kimi K2 Thinking 模型也表现出色。BrowseComp 是由 OpenAI 发布的一个专门评估 AI Agent 网络浏览能力的基准测试,这项测试的初衷是衡量 AI Agent 在信息过载环境中展现出的坚持性与创造力,即能否像人类研究员一样「刨根问底」。在这项极具挑战的任务上,人类平均只能达到 29.2% 的成绩。Kimi K2 Thinking 在这项基准测试中展现出极强的钻研能力,以 60.2% 的成绩成为新的 SOTA 模型。

在长程规划和自主搜索能力的驱动下,Kimi K2 Thinking 可借助多达上百步的“思考 → 搜索→ 浏览网页 → 思考 → 编程”动态循环,持续地提出并完善假设、验证证据、进行推理,并构建出逻辑一致的答案。这种边主动搜索边持续思考的能力,使 Kimi K2 Thinking 能够将模糊且开放式的问题分解为清晰、可执行的子任务。

我们来看一个示例,在这个例子中,Kimi K2 Thinking 经过两次搜索和思考,先根据股票回购的已知信息找到了这家制造快艇的公司,然后在美国证券交易委员会(SEC)的官网上找到了股票回购公告信息,得出了准确的答案:

↕ 上下滚动查看完整推理过程

Agentic 编程能力持续精进

Kimi K2 Thinking 模型的编码能力也得到了增强,在多语言软件工程基准 SWE-Multilingual、SWE-bench 验证集和 Terminal 终端使用等基准测试中的表现有了进一步提升。

我们观察到 Kimi K2 Thinking 在处理 HTML、React 以及组件丰富的前端任务时性能有明显提升,能将创意转变为功能齐全、响应式的产品。在 Agentic Coding 场景中,Kimi K2 Thinking 能在调用各种工具的同时进行思考,灵活地融入 software agents 中,处理更复杂、多步骤的开发工作流。

我们来看两个例子:

现在,Kimi K2 Thinking 可以帮你复刻一个真实可用的 Word 文字编辑器。

Kimi K2 Thinking 也可以帮你创造一个华丽风格的体素艺术(voxel art)作品:

通用基础能力升级

创意写作:Kimi K2 Thinking 显著提升了写作能力,它能将粗略的灵感转化为清晰、动人且意图明确的叙述,使其兼具韵律感和深度。它能轻松驾驭微妙的文风差异和模糊的结构,并在长篇大论中保持风格的连贯性。在创意写作方面,它笔下的意象更生动,情感共鸣更强烈,将精准的表达与丰富的表现力融为一体。

学术与研究:在学术研究和专业领域,Kimi K2 Thinking 在分析深度、信息准确性和逻辑结构方面均有显著提升。它能有条不紊地剖析复杂的指令,并以清晰严谨的方式拓展思路。这使其尤其擅长处理学术论文、技术摘要,以及那些对信息完整性和推理质量要求极高的长篇报告。

个人与情感:在回应个人或情感类问题时,Kimi K2 Thinking 的回答更富同理心,立场也更中正平和。它的思考深入周到且具体明确,能提供细致入微的观点和切实可行的后续建议。它能清晰并关切地帮助用户梳理复杂的决策,其语气既脚踏实地又切实中肯,更有人情味。

我们来看一个辅助阅读英文技术论文的例子:

↕ 上下滚动查看完整分析过程

原生 INT4 量化提升推理效率

低比特量化是降低大规模推理服务器的延迟和 GPU 显存占用的有效方法。我们的测试发现,因为思考模型会产生极长的解码长度,常规的量化手段往往会导致模型性能大幅下降。为了克服这一挑战,我们在后训练(post-training)阶段采用了量化感知训练(QAT),并对 MoE 组件应用了 INT4 纯权重(weight-only)量化。

这使得 Kimi K2 Thinking 模型能够在复杂推理和 Agentic 任务中支持原生的 INT4 推理,并将生成速度提升了约 2 倍。INT4 对推理硬件的兼容性更强,对国产加速计算芯片也更加友好。值得注意的是,我们所有的基准测试成绩都是在 INT4 精度下取得的。

现在开始使用

前往 kimi.com 或更新到最新版 Kimi App,从「工具箱」中打开 K2 模型的「长思考」开关,即可把你遇到的复杂任务丢给 Kimi 一起思考。

Kimi K2 Thinking 模型 API 已上架 Kimi 开放平台(platform.moonshot.cn),支持 256K 上下文,价格与 Kimi K2-0905 相同,每百万 Token 输入 4 元,输出 16 元,命中缓存的输入为 1 元。速度高达 100 Token/s 的 Turbo API 也同步上架,每百万Token输入 8 元,输出 58 元,命中缓存的输入为 1 元。欢迎开发者测试反馈新模型 API,入门指南请参考此文档

更多模型性能评估数据和使用案例,可参考这篇技术博客

注:为确保快速、轻量化的体验,我们在 kimi.com 和 Kimi 应用的聊天模式中仅部署了部分工具并减少了工具调用步数。因此,聊天功能可能无法完全匹配基准测试分数。Kimi 的 Agent 模式「OK Computer」将很快更新,以展现新模型的全部能力。


关于 Kimi K2 模型Kimi K2 模型最初发布于 7 月 11 日,它是一款混合专家架构(MoE)的开源基础模型,总参数 10,000 亿,激活参数 320 亿。9 月 5 日,Kimi K2-0905 版更新,进一步提升了代码能力,并且将上下文窗口从 128K 升级到 256K。截止目前,包括 Cline、Cursor、flowith、Genspark、Kilo Code、Kortix Suna、OpenRouter、Perplexity、RooCode、TRAE、Trickle、Vercel、Windsurf 、YouWare 等在内的产品都接入或在使用 Kimi K2 模型。11 月 6 日,Kimi K2 Thinking 模型发布,全面提升 Agent 和推理能力。


最近更新

请查收你的1024节日礼物:Kimi For Coding包月套餐

都是Kimi K2,表现却不同?我们测了多家服务商ToolCall性能,并开源了测试集

「OK Computer」,Kimi Agent 模式开启内测

2026 校招启动|Kimi 邀你一同探索月之暗面

模型即 Agent,Kimi-Researcher(深度研究)开启内测

Kimi 与财新传媒达成合作,为你提供更专业、可信的财经内容



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Kimi K2 Thinking AI Agent 开源模型 思考能力 工具调用 推理能力 编程 写作 INT4量化 SOTA
相关文章