机器之心 3小时前
360发布FG-CLIP 2,引领AI细粒度图文理解新高度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

360发布了其新一代多模态模型FG-CLIP 2,在视觉语言理解(VLM)领域实现了重大突破。该模型通过创新的FineHARD数据集和两阶段训练策略,能够实现像素级精准的图文匹配和理解,全面超越了Google和Meta的同类模型。FG-CLIP 2不仅在英文任务上取得了显著优势,在中英文细粒度理解上也表现出色,真正做到了中英双通、语义统一。该模型已在360多项业务中落地应用,并以API+MCP形式开放给开发者,旨在成为各行各业智能化升级的底层引擎。

🎯 **像素级精准理解能力**:FG-CLIP 2 能够识别图像中的细微之处,如毛发纹理、精确位置和微妙的动作差异,解决了传统CLIP模型在细节理解上的短板,实现了“明察秋毫”的视觉洞察力。

🏆 **多项基准测试中的领先地位**:在29项多模态Benchmark测试中,FG-CLIP 2 取得了近乎全满的成绩,尤其在图文匹配、零样本分类和跨模态检索方面全面超越了Google和Meta的最新模型,确立了其在VLM领域的SOTA地位。

📚 **高质量、大规模的FineHARD数据集**:FG-CLIP 2 的核心优势得益于其自建的FineHARD数据集,该数据集包含海量高质量图文对,并引入了长文本描述、区域目标框及其细粒度描述,以及千万组细粒度难负样本,为模型的精细化学习提供了坚实基础。

🚀 **创新的两阶段训练策略与五维协同优化**:通过“筑基”的全局感知和“炼体”的局部细节对齐,结合全局对齐、细粒度视觉、细粒度文本、跨模态排序、文本对比学习等五维协同优化,FG-CLIP 2 实现了视觉能力的全面升级。

🌐 **中英双通与广泛应用前景**:FG-CLIP 2 不仅在英文任务上表现优异,在中英文细粒度理解上也达到了领先水平,实现了中英语义统一。该模型已在360多项业务中落地,并开放给开发者,有望成为AIGC、图文检索、内容审核、具身智能等领域的重要底层技术支撑。

原创 关注多模态的 2025-11-05 12:13 四川

无论是数据还是训练方法都做了新的探索。

机器之心原创

编辑:吴昕、冷猫

这年头,AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿,这些大模型的「眼力见儿」可就让人难绷了。

比如,我让它画「一只穿红外套的猫,站在一辆蓝色跑车左边,蓝色跑车后面是一辆白色 SUV。」

抽卡两次,全翻车。模型似乎还没整明白,「后面」到底是个什么空间关系。

换个路子去搜图:「一辆红色的特斯拉,引擎盖上很多鸟粪」。两排图翻下来,真正对得上的只有一张。

无论是淘一件女明星带火的「蓝色中式茧形设计棉服」,还是「大话西游里的周星驰,手拿紧箍咒」,结果嘛 ,都不让人省心。

好消息是,这毛病终于要被整治了。

就在我还在吐槽它「看个大概、看不清细节」的时候,360 那边又放了个大招 FG-CLIP 2

它就像是给 AI 装了一台显微镜,看图精确到像素级。毛发、斑点、色彩、表情、位置,全都看得清。

在八大类任务、29 项测试中,FG-CLIP 2 全面超越 Google 与 Meta, 一跃成为目前最强的图文跨模态 VLM 模型

而且,中英文都玩得 6,真正的:全球最强,又最懂我们。更让人拍手称快的是,360 已经将它开源了!(搓搓小手)

Github: 

https://github.com/360CVGroup/FG-CLIP

论文: 

https://arxiv.org/abs/2510.10921

项目主页:

https://360cvgroup.github.io/FG-CLIP/

「明察秋毫」,拿了 29 项第一

我们来看下面这张图。你脑海里蹦出的第一个词是什么?

大概率是「猫在看屏幕」,或者更具体点 「一只猫看着一只屏幕里的猫」。

很好,你一下敏锐捕捉到了画面中最核心的信息,也就是一只猫在屏幕里。

FG-CLIP 2 猫咪图像标签匹配结果示意。「一只狸花猫和屏幕中的英短相互对视」的结果置信度 88%。

但对于传统 CLIP 模型来说,从一张仅有二维平面信息的图像中识别屏幕内的信息,恐怕已经超出了理解能力的上限 ——

它们只能认出猫和基本动作,却完全搞不清它们的细节,尤其是屏幕里的那只。

而 FG-CLIP 2 不仅能准确理解空间关系,还通过毛发纹理的细节特征,精准区分出猫的品种:一只是狸花猫,另一只是屏幕里的英短猫。

这样识微入毫能力,可不是凭空炼成的。

其实早在 2021 年,OpenAI 靠一篇 48 页的论文打造出多模态领域的开山之作 CLIP——

它第一次让机器学会了「图文配对」,在同一个语义空间里理解世界,从此打开了视觉智能的大门。

此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撑起图文理解模型的「天花板」。

但说实话,即便再强,这些传统 CLIP 模型依然有一个致命短板 —— 它们都很近视:

看不清细节,毛发、纹理无法分辨;

搞不清方位,上下左右容易混淆;

分不清语义,相似的文字经常错配;

中文,细粒度理解几乎处于失明状态。

因为近视,CLIP 系列模型在搜索、推荐、文生图等任务里常常力不从心。

今年 4 月,360 推出了第一代 FG-CLIP,给模型装上了「近视镜」,初步解决了看不清细节的毛病。而这次的 FG-CLIP 2,相当于直接换上了「显微镜」—— 清晰度和理解力暴增。

再看看这张图。户外环境复杂、主体很多、还有高度迷惑性的动作。连人看了都要愣一下,这是干嘛呢?

MetaCLIP 2 非要说是「室内」, SigLIP 2 更离谱,说这是手拉手跳舞,只有 FG-CLIP 2 回答最接近图片内容,「一个人形机器人在户外带领一群老年人做伸展操」。

结果,连 MetaCLIP 2、SigLIP 2 都被整哑火 ——MetaCLIP 2 认成了「室内」,SigLIP 2 更离谱,说是人和机器人「手拉手跳舞」,连地点也没整明白。

只有 FG-CLIP 2 的回答与内容最为接近:一个人形机器人在户外带领一群老年人做伸展操。

这些能力的强大,不是自嗨,而是有数据支撑的。在全球 29 个多模态 Benchmark 测试中,FG-CLIP 2 几乎实现「满环」成绩 ——29 项第一

不论是图文匹配、零样本分类还是跨模态检索,它都稳定、全面、碾压。

「多边形」 战士。FG-CLIP 2 不只是「擅长某些场景」,而是在全维度能力上达到 SOTA 水平,真正实现了全方位突破。

在英文任务上,FG-CLIP 2 直接拿下了 81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

在中文任务上,它依旧是那个最懂中文语义的模型。不仅超越 Meta 的多语言模型,还稳压阿里的 Chinese-CLIP,证明自己能真正做到中英双通、语义统一。

在英文语言任务上,FG-CLIP 2 以 81.10 分的平均成绩 取得了断崖式领先。与之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 仅取得 64.10 分。

它在平均成绩上超越了支持多国语言的 Meta CLIP 2,并领先阿里达摩院的 Chinese-CLIP 等专注中文优化的模型,证明了其双语一致性与跨语种泛化能力。

数据、数据、还是数据

实现「像素级理解」的核心,是高质量的数据,是比硅谷更具优势,更懂语义的图文样本。

熟悉跨模态模型的人都知道,模型的「理解力」不是灵光一现,而是从海量图文对中,一点点学习出来的。

360 正是从这里入手,花了大力气打造了属于自己的「数据炼金炉」——FineHARD 数据集,也由此开辟了细粒度大规模数据的新纪元。

这套数据集,不仅规模足够大,质量也卷到了新高度。FineHARD 的语义一致性、标注精度、局部划分,突破性的填补了同类 CLIP 模型的数据空白

为了让模型在中文世界「游刃有余」,360 选择了自建数据,仅中文部分就包含高达 5 亿对图像与文本

更妙的是,他们还为中文评测补上了长期缺席的一环 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等长描述检索集,以及 BoxClass-CN 区域分类集,首次实现了对跨模态模型在中文语言环境下的多维度、双语细粒度能力的全面评估。

在训练过程中,FG-CLIP 2 充分融合了海量的中英文高质量数据,学习两种原生语境,让模型既能「读懂世界」,也能「看懂中国」。

除此以外,360 在数据结构上动了不少巧思,不只是「多」,而是要「精」。

传统 CLIP 的文本描述大多很短,像「这是一只猫」—— 告诉模型「有猫」,但没告诉它「猫在干嘛」。FG-CLIP 2 的数据更加完整,每张图片都配了两段描述:

一条短文本,帮模型迅速把握全局;另一条平均 150 个词的长文本,描绘背景、属性、动作与空间关系等细节。

于是,模型不再只是认识「猫」,而是能理解 「那只趴在沙发上、眯着眼的小橘猫」,在数据层面实现了超高的语义密度。

更进一步,团队还引入了开放世界目标检测(OVD)机制,把每张图片都分解成多个目标区域,并为每个区域生成精准的描述。

最终,整个 FineHARD 数据集最终包含 4000 万个目标框及其对应的细粒度描述,模型由此学会了在像素级层面「看世界」。

数据集中包含的长文本、短文本、区域描述示意

当然,要让模型真正有「辨别力」,光知道什么是对的还不够 —— 还得知道什么是错的。

于是,360 又加了一道「狠料」:1000 万组细粒度难负样本

这些样本乍看几乎一模一样,只在细节处藏着陷阱:项圈的颜色、服装的材质、动作的微妙变化。模型若不够尖锐,就会立刻被迷惑。就像之前展示的图像中「伸展操」和「跳舞」的微小区别一样,足以让一般的模型看走眼。

正是这些干扰项,逼着模型不断打磨语义判断力,学会在文本图像的统一空间中远离错误匹配。在复杂场景和相似描述下,也能精准锁定。

细粒度难负样本数据示意

火中淬炼,修得「火眼金睛」

数据集的进化只是序章。要练就像素级的「火眼金睛」,训练方法也得升级。

360 在多模态领域早已是久经沙场的老将,曾发布过开放世界目标检测的 LMM-Det,多模态大模型 360VL 等高质量代表作。

这次,他们把多年积累的经验融会贯通,凝成让模型脱胎换骨的「修炼秘籍」—— 两阶段训练策略 + 五维协同优化体系,让模型经历一次彻底的蜕变。

修炼的第一步,是「筑基」。模型要先对世界有「全局感知」, 才能在此基础上识别细节。

在这一阶段,FG-CLIP 2 采用与 CLIP 类似的整体语义配对方式,先让模型学会理解图像的大致含义。

但不同的是,FG-CLIP 2 没有停留在 CLIP 的「入门阶段」,而是充分利用训练数据的优势,融入更丰富的语义细节,为模型打下了坚实的「世界观地基」,为后来的像素级学习铺平了路。

CLIP 系列模型对齐训练示意图

「筑基」完毕,便是「炼体」。这一阶段,模型不再停留于整体配对,而是开始聚焦局部,精修细节。

FG-CLIP 2 抛弃了传统的整体对齐策略,转而采用全新的训练策略:图像局部信息与文本局部信息对齐

于是,当它看到「猫咪对视」时,不仅知道猫咪品种,还能准确判断毛发细节、位置关系、甚至是屏幕里的虚拟空间。

模型的视觉能力,也从「识物」进化到「识微」,从模糊的大视野变成了像素级显微镜。

FG-CLIP 2 的两阶段训练

而让 FG-CLIP 2 最终成型的,是五维协同的优化体系。

传统模型往往只对齐图像和文本的整体特征,而 FG-CLIP 2 则在训练目标函数上,同时在五个维度发力 —— 全局对齐、细粒度视觉、细粒度文本、跨模态排序、文本对比学习。

当五条「经脉」同时被打通,模型在对齐精度、语义分辨率、抗干扰性上就有了全面觉醒。

除了训练策略革新,FG-CLIP 2 在视觉处理上也动了巧心思。

他们独创了数据自适应分辨率策略:能根据每批图像的最大尺寸自动选择最佳分辨率,既避免了随机缩放带来的变形,又提高了效率。

看似小改动,却带来了大提升。

看得清,更要用得 6:从基石到行业新支点

如果说 FG-CLIP 2 的诞生,让 AI 第一次拥有了像素级的火眼金睛。那么,它更深远的意义,不只是「看得清」,而是真正被用起来。

如今,FG-CLIP 2 已在 360 的多项业务中落地。如广告配图、IoT 摄像机智能检索、信息流图像搜索、云盘图片识别,成为这些业务场景的智能底座。

更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面开放,面向开发者与企业用户,希望这份跨模态理解力,能成为千行百业智能化升级的底层引擎。

在图文检索中,FG-CLIP 2 能真正做到「以文搜图」。输入 「穿红裙、手拿咖啡的女性」,它就能精准锁定对应图像。这一能力在电商、安防、媒体内容管理中极具价值。相比传统 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉细节、召回更准、结果更稳。

在 AIGC 内容生成中,它则是生成模型的「细节监督官」,确保画面在品牌元素、颜色、布局等关键维度与提示语一致,让 AI 生成的内容更精准、可靠。

在内容审核和安防监控领域,它能理解图像局部语义,识别人物、符号或敏感元素,实现「用语言搜视频」的自然检索,大幅提升效率与准确性。

而在具身智能领域,机器人能 get 物体状态与空间关系,依循命令「拿起餐桌上的红色水杯」,「把玩具放进绿色收纳箱」。

厚积成峰,360「棋局」初成

未来的智能竞争,不在于谁的应用更炫,而在于谁能构建出统一、强大的 自主 AI 核心能力。作为一家以安全著称,拥有丰富产品生态的科技企业,360 早已布好棋局,掌控关键落子。

360 人工智能研究院在多模态概念尚未普及之前,就开始投入视觉 — 语言理解方向的研究。他们以「让 AI 看清世界、理解世界、再创造世界」为目标,构建了由三个阶段组成的多模态技术体系:视觉 AIGC、多模态大模型和开放世界目标检测(OVD)。

其中,CLIP 系列模型是整个体系的基石,负责实现视觉与语言的语义对齐。LMM-Det 和 360VL 聚焦于视觉感知与高层语义理解。而 SEEChat、PlanGen 和 HiCo 则将底层能力封装为多模态交互、生成与知识增强功能,形成了可复用、可扩展的多模态技术链条。

与此同时,研究团队也持续保持较高的科研产出。过去三年中,多篇论文被 ICLR、NeurIPS、ICML、ICCV 等国际顶级学术会议接收,逐步形成了从基础研究到应用落地的完整技术闭环。

可以说,FG-CLIP 2 已不仅是一项模型成果,更代表着中国团队在多模态基础研究上的一次系统性探索。未来,随着视觉与语言理解技术的融合深化,这样的底层能力或将成为通用智能的重要支点。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FG-CLIP 2 多模态 视觉语言理解 AI 360 细粒度理解 FineHARD VLM 人工智能研究院 计算机视觉 图像识别 自然语言处理
相关文章