掘金 人工智能 08月18日
谁是最强编程大模型?横向对比Claude Opus 4.1、GPT-5、Gemini 2.5 Pro、Grok4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章对比了多个主流AI模型在编程和问题解决能力上的表现,重点分析了GPT-5、Gemini 2.5 Pro、Grok 4和Claude Opus 4.1等模型在处理华为OD算法题时的优劣。通过具体测试案例和代码质量评估,揭示了Claude Opus 4.1在边界测试、解题思路完整性及代码优化方面的领先优势,为AI模型选择提供了实用参考。

🔍 Claude Opus 4.1在编程能力上表现突出,不仅提供了完整的Java代码和详细注释,还包含了边界测试用例和全面的解题思路分析,确保代码质量和鲁棒性。

🗣️ GPT-5虽然最终给出了正确答案,但解题过程需要多次交互,且解题思路相对简单,缺乏对算法复杂度和效率的深入分析,影响用户体验。

📈 Gemini 2.5 Pro在基准测试中表现优异,但在实际编程任务中,未能明确说明对代码进行自测,且缺少对解题过程的详细步骤和复杂度分析,完整性不足。

🧪 Grok 4在代码测试方面态度消极,仅简单提及测试而未提供具体案例,且缺乏总结性分析,显示出在严谨性上的欠缺。

🌟 Claude Opus 4.1的综合表现最佳,不仅代码通过率高,还提供了其他编程语言版本和测试验证,体现了全面的AI能力和开发者友好设计。

模型众多,该如何选择?

GPT-5:OpenAI的最新旗舰模型,统一智能系统,GPT-5 集成了多个模型,自动根据任务复杂度选择最适合的模型进行处理,多模态首选。

GPT-5 Thinking:GPT-5 系列中的一个特定模式,专为处理复杂任务而设计。适用于科学研究、复杂编程任务和高难度的逻辑推理等领域。

Gemini 2.5 Pro:谷歌最新模型,在写作、编程、数学、推理、科研等基准测试中,全部刷新SOTA。

Grok 4:马斯克发布的最新模型,多项测试全面刷新SOTA,数学、科研、推理首选。

DeepSeek R1 0528:国产之光,开源最强模型,在整体表现上已接近其他国际顶尖模型,已解决“服务器繁忙,请稍后再试”问题。

Claude独立网站 - 编程首选

Claude Opus 4.1:Claude Opus 4 在代理任务、真实世界编码和推理方面的升级版,Claude 4系列模型中最新、最强大的版本。

Claude Sonnet 4:以编程和写作能力为核心,支持Extended Thinking深度推理的扩展思考和Web search联网实时查询,可以构建project进行文件、项目代码复用、轻松构建AI智能体。

我们通过一道经典的华为OD算法题,对比一下Claude Opus 4.1、GPT-5、Gemini 2.5 Pro、Grok4的编程能力,看看孰强孰弱。

国内直接使用GPT-5

谷歌浏览器访问:www.nezhasoft.cloud

私信哪吒,备注体验ai,领取体验码。

还包含了GPT-5、GPT-5 Thinking、Claude Sonnet 4、Gemini 2.5 Pro、Grok4、DeepSeek R1 0528等模型。

先说结论:

个人认为:Claude Opus 4.1 > GPT-5 > Gemini 2.5 Pro > Grok4

首先可以明确的是,四大模型给出的代码都没有bug,测试通过率都是100%,牛逼。

理由:

1、只有Claude Opus 4.1给出了边界测试用例。

2、GPT-5不是一次性完成,是通过多次连续提问,才给出了最后的答案,差评,但上下文较长,加分项。

3、GPT-5给出的解题思路较为简单。

4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测。

5、Grok4在最后提及对Java代码和其他语言的代码进行测试用例测试,一笔带过,差评。

6、只有Claude Opus 4.1给出了最后的总结(包含本次完成的任务、测试结果、核心算法总结)。

提示词如下:

请根据下面描述、用Java解答此题,类名为OdTest,通过控制台输入,比如Java的Scanner,(控制台输入输出时,不要有其他文字描述,只有测试用例即可),为代码添加详细的中文注释,

通过测试用例进行代码测试,如果不正确,请修改Java代码并优化。

根据输入输出描述,给出5个测试用例,通过Java代码测试,验证代码和测试用例的正确性,给出测试用例的解释说明。

输出Java代码的解题思路,采用了什么数据结构和算法,为什么采用这些数据结构和算法。

将正确的Java代码转为Python、JavaScript、C、C++写法,每行代码添加详细的中文注释,再输出

通过下面的测试用例对转化后的Python、JavaScript、C、C++代码进行测试,如果与输入输出不符,修正代码,重新测试

一、题目描述

孙悟空喜欢吃蟠桃,一天他乘守卫蟠桃园的天兵天将离开了而偷偷的来到王母娘娘的蟠桃园偷吃蟠桃。

已知蟠桃园有 N 棵蟠桃树,第 i 棵蟠桃树上有 N[i](大于 0)个蟠桃,天兵天将将在 H(不小于蟠桃树棵数)小时后回来。

孙悟空可以决定他吃蟠桃的速度 K(单位:个/小时),每个小时他会选择一颗蟠桃树,从中吃掉 K 个蟠桃,如果这棵树上的蟠桃数小于 K,他将吃掉这棵树上所有蟠桃,然后这一小时内不再吃其余蟠桃树上的蟠桃。

孙悟空喜欢慢慢吃,但仍想在天兵天将回来前将所有蟠桃吃完。

求孙悟空可以在 H 小时内吃掉所有蟠桃的最小速度 K(K 为整数)。

二、输入描述

从标准输入中读取一行数字,前面数字表示每棵数上蟠桃个数,最后的数字表示天兵天将将离开的时间。

三、输出描述

吃掉所有蟠桃的 最小速度 K(K 为整数)或 输入异常时输出 -1。

Claude Opus 4.1

准确性:通过本地IDEA自测,通过率100%

Claude Opus 4.1给出了详细的Java 代码、详细的代码注释、对Java代码进行测试、解题思路与算法分析(包含问题本质、采用的数据结构和算法)、测试用例及说明(包含边界用例)、其他编程语言代码、测试转换后的代码、最后的总结。

GPT-5

准确性:通过本地IDEA自测,通过率100%

首先需要明确一点,GPT-5是通过多次问答,才给出了详细的答案。

GPT-5给出了详细的Java 代码、详细的代码注释、对Java代码进行测试、解题思路与算法分析(包含解题思路、采用的数据结构和算法、解题步骤、复杂度分析、小总结)、测试用例及说明(不包含边界用例)、其他编程语言代码、测试转换后的代码。

解题思路与算法分析非常简单,不包含解题步骤、复杂度分析、小总结,差评。

Gemini 2.5 Pro

准确性:通过本地IDEA自测,通过率100%

Gemini 2.5 Pro给出了详细的Java 代码、详细的代码注释、解题思路与算法分析(包含解题思路、采用的数据结构和算法、复杂度分析)、测试用例及说明(不包含边界用例)、其他编程语言代码。

回答中没有明确表明:对Java代码和其他语言的代码进行测试用例测试。

没有最后的总结。

Grok4

准确性:通过本地IDEA自测,通过率100%

Grok4给出了详细的Java 代码、详细的代码注释、解题思路与算法分析(包含解题思路、采用的数据结构和算法)、测试用例及说明(不包含边界用例)、其他编程语言代码。

最后提及对Java代码和其他语言的代码进行测试用例测试,一笔带过,差评。

没有最后的总结。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 编程能力 模型对比 GPT-5 Claude Opus
相关文章