AI研究进展速递：涵盖大模型、多模态与机器人

HuggingFace 每日AI论文速递 13小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本期AI研究速递聚焦多项前沿进展。在大型语言模型方面，研究探索了将通用推理模型扩展至万亿参数（Every Activation Boosted），以及如何泛化测试时计算最优扩展为可优化图（Generalizing Test-time Compute-optimal Scaling）。在多模态领域，UniLumos框架实现了图像和视频的快速统一重打光，ROVER基准测试了多模态生成中的跨模态推理，而LongCat-Flash-Omni则展示了5600亿参数的全模态实时音视频交互模型。此外，研究还关注了视觉模型在图结构理解中的潜力（The Underappreciated Power of Vision Models），以及PHUMA数据集为人形机器人运动提供了物理基础。导航与空间推理能力也得到提升，通过NaviTrace评估具身导航，Actial激活多模态大模型的空间推理，ToolScope框架支持视觉引导的长程工具使用，TIR-Bench则评测了“图像思维”的智能体推理。最后，MeasureBench为视觉语言模型的测量读数能力提供了基准。

🧠 **大模型能力拓展与优化**：研究致力于突破现有大型语言模型的规模限制，如将通用推理模型扩展至万亿参数，并探索将测试时计算最优扩展转化为可优化的图结构，以提升模型的通用性和效率。

👁️ **多模态理解与生成能力的提升**：UniLumos框架实现了对图像和视频的快速、物理可信的重打光；ROVER为跨模态推理和多模态生成提供了统一的基准测试；LongCat-Flash-Omni则展示了强大的全模态实时音视频交互能力。

🤖 **机器人与具身智能的发展**：PHUMA数据集为人形机器人的物理运动研究提供了宝贵资源，ToolScope框架支持智能体进行视觉引导的长程工具使用，NaviTrace则用于评估视觉-语言模型在具身导航任务中的表现。

💡 **多模态推理与空间感知**：UniREditBench和TIR-Bench分别聚焦于图像编辑和“图像思维”的智能体推理能力；MeasureBench评估视觉语言模型在视觉测量读数方面的准确性；Actial则致力于激活多模态大模型的空间推理能力。

本期的 15 篇论文如下：

00:23 🧠 Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation（全激活赋能：将通用推理模型扩展到万亿参数的开放语言基座）

01:03 👁 The Underappreciated Power of Vision Models for Graph Structural Understanding（被低估的视觉模型在图结构理解中的强大潜能）

01:38 💡 UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback（UniLumos：基于物理可信反馈的统一图像与视频快速重打光框架）

02:37 🕸 Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph（将测试时计算最优扩展泛化为可优化的图）

03:11 🤖 PHUMA: Physically-Grounded Humanoid Locomotion Dataset（PHUMA：基于物理的人形机器人运动数据集）

03:48 🔭 ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use（ToolScope：面向视觉引导与长程工具使用的智能体框架）

04:30 🧠 UniREditBench: A Unified Reasoning-based Image Editing Benchmark（UniREditBench：基于统一推理的图像编辑评测基准）

05:23 🔄 ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation（ROVER：统一多模态生成中的双向跨模态推理基准测试）

06:04 🌍 Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum（迈向通用视频检索：通过合成多模态金字塔课程泛化视频嵌入）

06:44 🌍 World Simulation with Video Foundation Models for Physical AI（基于视频基础模型的物理AI世界仿真）

07:20 🧠 TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning（TIR-Bench：面向“图像思维”智能体推理的综合评测基准）

08:03 🧭 NaviTrace: Evaluating Embodied Navigation of Vision-Language Models（NaviTrace：评测视觉-语言模型具身导航能力）

08:45 📏 Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench（视觉语言模型能否胜任？基于MeasureBench的视觉测量读数基准测试）

09:23 🧭 Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models（激活多模态大语言模型的空间推理能力）

10:07 🐱 LongCat-Flash-Omni Technical Report（LongCat-Flash-Omni技术报告：5600亿参数开源全模态实时音视频交互模型）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签