热点
"在线评估" 相关文章
景不动人动,MLLM如何面对「移步换景」的真实世界?OST-Bench揭示多模态大模型在线时空理解短板
机器之心 2025-10-14T10:40:11.000000Z
Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking
cs.AI updates on arXiv.org 2025-08-04T04:27:20.000000Z
微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
新智元 2025-01-14T16:13:57.000000Z