热点
"VLM" 相关文章
中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型
机器之心 2025-11-05T09:47:38.000000Z
中英双语、29项第一、像素级理解:360 FG-CLIP2登顶全球最强图文跨模态模型
机器之心 2025-11-05T07:43:09.000000Z
超越谷歌、Meta,360的FG-CLIP2为何能成为“全球最强图文模型”?
AI大模型工场 2025-11-04T16:29:32.000000Z
视觉语言模型“扫地僧”:360低调开源FG-CLIP2登顶29项全球基准测试 | 甲子光年
甲子光年 2025-11-04T12:26:50.000000Z
Navigation with VLM framework: Towards Going to Any Language
cs.AI updates on arXiv.org 2025-10-29T04:33:16.000000Z
Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
cs.AI updates on arXiv.org 2025-10-29T04:26:34.000000Z
OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows
cs.AI updates on arXiv.org 2025-10-29T04:19:38.000000Z
世界模型==VQA?机器人不用想象画面,预测语义就够了
机器之心 2025-10-28T05:42:24.000000Z
STATUS Bench: A Rigorous Benchmark for Evaluating Object State Understanding in Vision-Language Models
cs.AI updates on arXiv.org 2025-10-28T04:14:33.000000Z
A Multimodal, Multitask System for Generating E Commerce Text Listings from Images
cs.AI updates on arXiv.org 2025-10-28T04:11:10.000000Z
OCR-Quality: A Human-Annotated Dataset for OCR Quality Assessment
cs.AI updates on arXiv.org 2025-10-28T04:08:36.000000Z
Gaze-VLM:Bridging Gaze and VLMs through Attention Regularization for Egocentric Understanding
cs.AI updates on arXiv.org 2025-10-27T06:25:42.000000Z
李曼玲联合团队开源新训练框架VAGEN,让AI智能体学会“看懂”并推理动态视觉世界
MIT 科技评论 - 本周热榜 2025-10-26T16:48:54.000000Z
Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices
MarkTechPost@AI 2025-10-24T21:29:27.000000Z
Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices
MarkTechPost@AI 2025-10-24T21:29:27.000000Z
Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices
MarkTechPost@AI 2025-10-24T21:29:27.000000Z
理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据
理想 TOP2 2025-10-24T15:12:46.000000Z
理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据
理想 TOP2 2025-10-24T15:12:46.000000Z
港科大联合港中文、字节跳动推出DreamOmni2:不止修图,更能领会意境,让AI绘画大师拿捏氛围感!
我爱计算机视觉 2025-10-24T09:14:49.000000Z
不重构、不牺牲通用性:VLM-FO1,为任何VLM无损增强细粒度感知能力
PaperWeekly 2025-10-23T13:51:12.000000Z