阮一峰的网络日志 前天 08:39
MiniMax M2 模型实测:国产大模型展现强大编程实力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对国产大模型MiniMax M2进行了实战测试,将其与智谱GLM 4.6和Anthropic Claude Sonnet 4.5进行编程能力对比。测试涵盖了代码理解与运行、复杂功能生成及配套测试用例编写,以及基于现实不存在场景的图像生成能力。结果显示,M2在代码测试中表现出色,不仅准确运行并通过了所有测试用例,还主动提供了代码覆盖率分析。在代码生成任务中,M2能深入理解需求,修改数据库结构并编写测试,甚至提供示例文件和图示,其处理复杂任务的思路和辅助信息输出令人印象深刻。在“鹈鹕骑自行车”的SVG生成测试中,M2也展现了不俗的理解和推理能力,其生成结果在细节上更具优势。综合来看,MiniMax M2的实测表现超出预期,尤其是在易用性和结果可靠性方面,其API价格也极具竞争力,值得开发者关注和使用。

🌟 **强大的代码运行与分析能力**: MiniMax M2 在执行代码测试时表现出色,能够成功拉取代码仓库并运行其中的测试用例,结果准确。更令人惊喜的是,它能主动提供代码覆盖率分析,帮助开发者深入了解测试的有效性,这是其他模型鲜有提供的辅助功能。

💡 **卓越的代码生成与扩展能力**: 面对复杂的功能生成任务,M2展现了超越预期的能力。它不仅能按要求修改代码和数据库结构,编写配套的测试用例,还能主动生成示例文件、图示,并能智能切换第三方服务以获取信息,极大地提升了开发效率和用户体验。

🎨 **出色的理解与推理生成能力**: 在“鹈鹕骑自行车”这一需要高度理解和推理的图像生成任务中,M2的表现值得关注。其生成的SVG图片在细节处理上,如道路的添加和自行车的完整性,相较于其他模型展现出更强的逻辑性和创造性。

💰 **高性价比与易用性**: MiniMax M2 的 API 价格极具竞争力,且其网页版 Agent 产品提供了直观友好的交互体验,输出结果附带大量辅助信息,增强了用户对结果的信任度和易用性,使其成为开发者在实际工作中值得考虑的选择。

一、

上个月,我写了一篇文章,比较了两个大模型。

就有人留言,两个模型太少了,能不能加入其他模型?

正好上周(10月27日),MiniMax 公司发布了 M2 模型,代表了国产大模型的最新水平。

我就想,可以测测它的实战效果,跟智谱公司的 GLM 4.6 和 Anthropic 公司的 Claude Sonnet 4.5 对比一下。

毕竟它们都属于目前最先进的编程大模型,跟我们开发者切身相关。

二、

先要说明,其实我不太熟悉 MiniMax 公司,它比较低调。

我只知道,这家公司专门研发大模型,产品有文本模型、视频模型、音频模型等等,但都不是非常热门。我就没有特别关注。

上周,我在滑推特的时候,看到一些老外在议论(123),这才知道 MiniMax 发布了新的旗舰模型 M2。

上面说话的这个人是 HuggingFace 大模型社区的负责人,提到了 M2 模型在 Artificial Analysis 性能评比之中排名世界第五,开源模型第一。

当天的 HuggingFace 热度榜上,它也是第一名。

OpenRouter 的大模型全球调用量排名,它这周排在第三。

我就来了兴趣,准备好好试用一下。

三、

根据 MiniMax 公司的说明,M2 模型的编程能力特别强,是目前最优秀的编程模型之一。

大家知道,国际上最流行的编程模型现在是 Claude Sonnet 4.5,国内的 GLM 4.6 模型也很强,我就把它们三个放在一起对比。

简单起见,我就直接在官方的网页版(国内版国外版)上运行测试,大家可以跟着一起动手试试看。

网页版实际是官方的智能体产品 MiniMax Agent,底层用的就是 M2 模型。

网页使用是免费的,API 调用现在也是免费期,为期两周。后面定价是百万 tokens 输入/输出 2.1元/8.4元人民币,官方宣传只有 Claude 价格的8%。

它的其他链接,我也列一下,文档仓库在 GitHub,API 调用指南(兼容 OpenAI 和 Anthopic 格式)看官方文档,模型下载在 HuggingFace,下载以后可以本地部署使用(如果条件允许)。

四、

我的测试题来自著名程序员西蒙·威利森(Simon Willison),他的网站有 Cluase Sonnet 4.5 的测试结果

此前,我用这些题目测过智谱公司的 GLM 4.6 模型,大家可以参考

本文主要是 MiniMax M2 的测试表现。

五、

第一题,测试模型理解和运行代码的能力。

拉取代码仓库 https://github.com/simonw/llm ,然后通过下面的命令运行测试用例。

pip install -e '.[test]'
pytest

上面的提示词要求模型抓取一个 Python 仓库,运行里面的测试用例,并返回结果。

从网页的显示来看,Minimax Agent 显然内置了沙盒,会在隔离环境的命令行下运行代码(下图)。

整个运行过程大约三分钟,然后它给出了结果:运行通过了466个测试用例。这个结果完全正确。

令我惊喜的是,除了运行结果,它还给出了覆盖率分析(下图),指出测试用例覆盖了代码的哪些功能。我还没在其他模型见过主动提供覆盖率的。

完整的对话看这里

六、

第二题,测试大家最关心的代码生成能力,看看它能不能按照要求生成应用程序。

我还是使用上面的仓库,要求 M2 为其增加一个功能,不仅需要修改代码,还需要修改数据库结构,并增加配套的测试用例。

1、代码仓库 https://github.com/simonw/llm 是一个 AI 对话应用,它将用户的提示和 AI 的响应存储在 SQLite 数据库中。

2、它目前使用线性集合,保存单个对话和响应。你尝试在响应表中添加一个 parentresponseid 列,并通过该列将对话的响应建模为树状结构。

3、编写新的 pytest 测试用例,验证你的设计。

4、编写一个 tree_notes.md 文件,首先将你的设计写入该文件,然后在运行过程中将该文件用作笔记。

这个任务比较复杂,运行时间稍微长一点。

这里有一个插曲。在运行过程中,它突然提示读取 GitHub 仓库没有成功,这时出现了我意外不到的一幕。

它竟自动切换到第三方的 deepwiki.com 去获取仓库。后面,分析数据库结构时,它又切换到 datasette.io 去分析 SQLite 数据库。这种第三方云服务的自动切换,我也是第一次见,可惜没来得及截图。

任务完成后,它给出了一段总结(下图),详细描述了它做了哪些事情,包括修改数据库、新增测试用例等等。

它甚至增加了一个示例文件(下图),演示新增的功能怎么用,还有一个示例图,演示修改后的对话结构,提示词里面可没要求它这么做。

完整的对话看这里

另外,官网的画廊有很多它生成的应用,我觉得也值得看一下。

七、

第三题就是西蒙·威利森发明的"鹈鹕骑自行车"场景,测试它的理解和推理能力。

生成鹈鹕骑自行车的 SVG 图片。(Generate an SVG of a pelican riding a bicycle)

这是现实中不存在的情景,全靠模型自己推理出来。理解能力越强,生成的图像就越逼真。

下面就是它生成的结果,完整的对话看这里

作为比较,我把另外两个模型的结果也贴出来。

GLM 4.6

Claude Sonnet 4.5

我觉得,MiniMax M2 的结果(第一张图片)有两个值得注意的地方。首先,它添加了道路;其次,它的自行车结构相对更完整,只是缺了握把。另外,要是那只鹈鹕的姿势更像"骑车"就好了。

八、

测试就到这里,至于 GLM 4.6Claude Sonnet 4.5 的结果对比,大家可以看它们各自的链接,自行比较。

我必须诚实地说,MiniMax M2 的表现超出了我的预期

最吸引我的地方,还不是运行结果本身,而是它处理问题的方式,对用户很友好,会添加一些帮助理解的辅助结果,让你觉得很易用(accessible)也很易懂,这也从侧面增强了生成结果的可靠性。

我倾向于相信,各种评测结果确实是 M2 的真实实力。再考虑到它的 API 价格(现在还是免费期),我会在接下来的工作中使用它,也推荐大家试试看。

(完)

文档信息

    版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)发表日期: 2025年11月 4日

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax M2 大模型 编程能力 LLM AI 国产大模型 模型评测
相关文章