HuggingFace 每日AI论文速递 13小时前
AI研究进展速递:涵盖大模型、多模态与机器人
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI研究速递聚焦多项前沿进展。在大型语言模型方面,研究探索了将通用推理模型扩展至万亿参数(Every Activation Boosted),以及如何泛化测试时计算最优扩展为可优化图(Generalizing Test-time Compute-optimal Scaling)。在多模态领域,UniLumos框架实现了图像和视频的快速统一重打光,ROVER基准测试了多模态生成中的跨模态推理,而LongCat-Flash-Omni则展示了5600亿参数的全模态实时音视频交互模型。此外,研究还关注了视觉模型在图结构理解中的潜力(The Underappreciated Power of Vision Models),以及PHUMA数据集为人形机器人运动提供了物理基础。导航与空间推理能力也得到提升,通过NaviTrace评估具身导航,Actial激活多模态大模型的空间推理,ToolScope框架支持视觉引导的长程工具使用,TIR-Bench则评测了“图像思维”的智能体推理。最后,MeasureBench为视觉语言模型的测量读数能力提供了基准。

🧠 **大模型能力拓展与优化**:研究致力于突破现有大型语言模型的规模限制,如将通用推理模型扩展至万亿参数,并探索将测试时计算最优扩展转化为可优化的图结构,以提升模型的通用性和效率。

👁️ **多模态理解与生成能力的提升**:UniLumos框架实现了对图像和视频的快速、物理可信的重打光;ROVER为跨模态推理和多模态生成提供了统一的基准测试;LongCat-Flash-Omni则展示了强大的全模态实时音视频交互能力。

🤖 **机器人与具身智能的发展**:PHUMA数据集为人形机器人的物理运动研究提供了宝贵资源,ToolScope框架支持智能体进行视觉引导的长程工具使用,NaviTrace则用于评估视觉-语言模型在具身导航任务中的表现。

💡 **多模态推理与空间感知**:UniREditBench和TIR-Bench分别聚焦于图像编辑和“图像思维”的智能体推理能力;MeasureBench评估视觉语言模型在视觉测量读数方面的准确性;Actial则致力于激活多模态大模型的空间推理能力。

本期的 15 篇论文如下:

00:23 🧠 Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation(全激活赋能:将通用推理模型扩展到万亿参数的开放语言基座)

01:03 👁 The Underappreciated Power of Vision Models for Graph Structural Understanding(被低估的视觉模型在图结构理解中的强大潜能)

01:38 💡 UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback(UniLumos:基于物理可信反馈的统一图像与视频快速重打光框架)

02:37 🕸 Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph(将测试时计算最优扩展泛化为可优化的图)

03:11 🤖 PHUMA: Physically-Grounded Humanoid Locomotion Dataset(PHUMA:基于物理的人形机器人运动数据集)

03:48 🔭 ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use(ToolScope:面向视觉引导与长程工具使用的智能体框架)

04:30 🧠 UniREditBench: A Unified Reasoning-based Image Editing Benchmark(UniREditBench:基于统一推理的图像编辑评测基准)

05:23 🔄 ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation(ROVER:统一多模态生成中的双向跨模态推理基准测试)

06:04 🌍 Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum(迈向通用视频检索:通过合成多模态金字塔课程泛化视频嵌入)

06:44 🌍 World Simulation with Video Foundation Models for Physical AI(基于视频基础模型的物理AI世界仿真)

07:20 🧠 TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning(TIR-Bench:面向“图像思维”智能体推理的综合评测基准)

08:03 🧭 NaviTrace: Evaluating Embodied Navigation of Vision-Language Models(NaviTrace:评测视觉-语言模型具身导航能力)

08:45 📏 Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench(视觉语言模型能否胜任?基于MeasureBench的视觉测量读数基准测试)

09:23 🧭 Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models(激活多模态大语言模型的空间推理能力)

10:07 🐱 LongCat-Flash-Omni Technical Report(LongCat-Flash-Omni技术报告:5600亿参数开源全模态实时音视频交互模型)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 大型语言模型 多模态 计算机视觉 机器人 智能体 推理 Large Language Models Multimodality Computer Vision Robotics Agents Reasoning
相关文章