Cnbeta 08月20日
DeepSeek V3.1 Base突袭上线 全网在蹲R2和V4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek日前悄然上线了全新的V3.1版本模型,最大的亮点是将上下文长度拓展至128k,并拥有685B参数,支持多种精度格式。在编程能力方面,V3.1表现突出,在Aider编程基准测试中以71.6%的高分超越Claude Opus 4,且推理响应速度更快。该模型还新增了原生“search token”支持,架构上可能预示着混合架构的未来。此外,V3.1的成本优势显著,每次完整编程任务仅需1.01美元,是专有系统的六十分之一。尽管在某些方面与GPT-5尚有差距,但其整体性能和成本效益使其备受关注,在Hugging Face趋势榜上迅速攀升。

🌟 **强大的上下文处理能力**:DeepSeek V3.1模型将上下文长度大幅提升至128k,相当于能够处理约10万至16万汉字,这使得模型在处理长篇文档、代码或对话时,能够更深入地理解和记忆信息,为复杂任务提供了基础。

💻 **领先的编程表现**:在Aider编程基准测试中,DeepSeek V3.1取得了71.6%的高分,不仅超越了Claude 4 Opus等先进模型,还在开源模型中占据领先地位。其编程性能在SVGBench基准上也表现优异,仅次于GPT-4.1-mini。

💰 **显著的成本效益**:与强大的性能相匹配的是其极低的成本。每次完整的编程任务仅需1.01美元,成本仅为专有系统的六十分之一,这对于开发者和企业而言,意味着更经济高效的技术解决方案。

💡 **架构创新与原生搜索**:V3.1模型在线上版本中去除了“R1”标识,并新增了原生“search token”的支持,这可能预示着DeepSeek未来将采用混合架构,并进一步优化了搜索功能,提升了模型的灵活性和实用性。

🚀 **性能与用户热情**:DeepSeek V3.1在推理和响应速度上均有提升,用户反馈积极。模型在Hugging Face趋势榜上迅速攀升至第四位,粉丝数已突破8万,显示出社区对其技术进步的高度认可和对未来R2版本的期待。

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:


值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。


对于这波更新,大家的热情可谓是相当高涨。

即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。



DeepSeek粉丝数已破8万

看到这里,网友们更期待R2的发布了!


混合推理,编程击败Claude 4

这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的“R1”去掉了。


同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:

<|search▁begin|> (id: 128796)

<|search▁end|> (id: 128797)


对此,有推测认为,这可能暗示推理模型与非推理模型的融合。


在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。


而且,它的成本仅1美元,成为非推理模型中的SOTA。


最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。


在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。


在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。


一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。


一手实测

第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。

假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。

实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。


由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?


在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。


此次更新,DeepSeek重点强调了对上下文的支持。

整个活,给DeepSeek-V3.1上点压力,让它根据“梦”这个字,输出尽可能多的内容,尽量达到上下文极限。


不过最后,差不多只输出了3000字左右,模型就停止了输出。


再来看下推理能力。

经典的9.11和9.9比大小问题,两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。


最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528,主打的是编程能力。

看看这次V3.1是否有更大的提升。


最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。


并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果,你觉得哪个更好?


接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。




参考资料:HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3.1 AI模型 大语言模型 编程能力
相关文章