掘金 人工智能 07月02日
智谱AI掀桌子了:那个会“思考”的视觉模型,9B参数硬刚72B巨兽
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI发布了GLM-4.1V-Thinking,一款具有“思维链”推理机制的多模态模型,它不仅能“看”,还能“思考”。该模型在多项权威评测中表现出色,甚至超越了参数量更大的模型。更令人振奋的是,GLM-4.1V-Thinking完全开源,并允许免费商用,降低了开发者和中小团队的门槛,为AI视觉应用带来了新的可能性。

🧠 GLM-4.1V-Thinking的核心在于其“思维链”推理机制,该机制使模型在处理复杂视觉问题时,能够像人类一样进行分步骤的分析和推导,而非直接给出答案。

🥊 尽管GLM-4.1V-9B-Thinking的参数量仅为9B,属于轻量级模型,但在28项多模态评测中,其成绩与72B参数的Qwen-2.5-VL持平甚至超越,展现了强大的性能。

💻 GLM-4.1V-Thinking的应用场景广泛,包括解答复杂问题、自动化操作软件界面、根据UI设计稿生成代码以及快速分析视频内容等。

🎁 智谱AI将GLM-4.1V-Thinking完全开源,并允许免费商用,开发者可以使用MIT协议,这降低了开发门槛,鼓励了更广泛的应用和创新。

朋友们,AI圈又地震了!

就在我们还在讨论哪个模型能多看几页PDF、多认几张图的时候,智谱AI(Zhipu AI)直接甩出王炸——GLM-4.1V-Thinking。注意这个后缀,“Thinking”,品出点不一样的味道了吗?

没错,这货不再满足于“看见”,它要的是“思考”。

不止“看见”,更在“思考”

我们见惯了会“看”的AI,给它一张图,它告诉你“这是一只猫”。但如果你问它:“这只猫为什么看起来很警惕?它下一步可能要去哪?”大部分模型就得开始“自由发挥”了。

GLM-4.1V-Thinking要解决的就是这个。它内置了一套骚操作——“思维链”(Chain-of-Thought)推理机制。简单来说,它在处理复杂视觉问题时,会像一个学霸解题一样,在脑子里一步步分析、推导,而不是直接蹦出个答案。

比如,看到一张复杂的物理实验图,它会先识别器材,再分析连接方式,推导物理原理,最后预测实验结果。每一步都有迹可循,这让它的回答不仅更准,而且逻辑清晰,有种“智商在线”的踏实感。

拳怕少壮:9B 对决 72B 的惊人战绩

光说不练假把式。最让我热血沸腾的,是它的性能数据。

智谱这次开源的GLM-4.1V-9B-Thinking,参数量只有9B。在如今这个动辄千亿参数的“军备竞赛”时代,这算是个轻量级选手。但就是这个“小家伙”,在28项权威的多模态评测中,有18项的成绩持平甚至超越了72B参数的Qwen-2.5-VL

这什么概念?这简直是AI界的“轻量级拳王”跨级别挑战,还把重量级选手打得有来有回。它用硬核实力告诉我们:参数大小不是唯一的神,聪明的“大脑结构”才是王道。

你的下一台“视觉大脑”,能做什么?

说了这么多,这东西到底能干嘛?应用场景简直不要太酷:

最关键的是,这一切的背后,是超长的64K上下文和对4K高清图像的支持。这意味着无论你的“投喂”的材料多复杂、多高清,它都能从容应对。

开源!免费商用!你的3090已经饥渴难耐

最后,也是最重要的一点:智谱把这套模型给开源了!

这已经不是“交个朋友”,这简直是把压箱底的宝贝拿出来,邀请整个社区一起“搞事情”。


总而言之,GLM-4.1V-Thinking的发布,就像在多模态领域投下了一颗深水炸弹。它不仅秀出了惊人的技术实力,更用开源和生态扶持的姿态,向所有开发者发出了“黄金时代,即刻启程”的邀请函。

好了,不说了,我得赶紧去GitHub上把玩一下这个“会思考的眼睛”了。兄弟们,冲!

传送门在这,不用谢:


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4.1V-Thinking 智谱AI 多模态模型 开源 AI视觉
相关文章