阿里发布大模型评测平台“晓天衡宇”及三大创新评测集

阿里数据 2025-09-26 17:03 浙江

阿里巴巴新一代大模型评测平台“晓天衡宇”SKYLENAGE，及三大创新评测集发布。

“当大模型不再关注刷榜时，AGI或许才真正到来 ......”

9月26日，位于杭州云栖小镇的“2025云栖大会评测标注分论坛”上，阿里巴巴AI数据总经理魏虎（空望），正式发布了阿里巴巴新一代的大模型评测平台“晓天衡宇”SKYLENAGE，以及分别针对数学竞赛、数学推理与游戏代码生成三大高难度领域的创新评测集：SKYLENAGE-Math、SKYLENAGE-ReasoningMath和SKYLENAGE-GameCodeGym。

这场主题为“繁星共绘：构建开放的AI评测标注新生态”的论坛，汇聚了来自北京大学、北京电影学院、Innodata、Turing等顶尖院校与机构的专家学者，以及海内外数十家大模型数据服务商，共同围绕大模型评测与数据标注的前沿发展、国际实践与行业挑战展开深度对话，聚焦AI评测与数据标注的技术突破与生态共建，加速推进模型评测与标注的标准化、专业化和国际化进程，为人工智能的高质量发展提供了交流的舞台。

晓天衡宇：以评测驱动AI进化

传统基准评测已难以匹配AGI发展的速度与复杂性，正面临数据污染、评估维度单一、滞后于技术迭代等多重挑战。魏虎（空望）在论坛演讲中指出，亟需构建一个系统、客观、权威的评测体系，打造以“评测驱动”为核心的高质量数据飞轮机制，让评测不仅是衡量AI能力的尺子，更要成为推动AI持续进化的重要引擎。

高质量、高难度、高专业度的标注与动态评测体系，是实现模型持续进化的重要前提。通过高考真题、IMO竞赛题等实战案例，阿里巴巴的AI数据团队展示了其敏捷、深度的评测能力，“晓天衡宇”SKYLENAGE应运而生。

“晓”与“衡”，象征着评测的清晰洞察和聚焦分析，代表着智慧、经验和公正的判断；“天”与“宇”，则表明了这一评测平台的广阔视野和宏大格局。这既是一把衡量AI模型的“高度”与“深度”的“量天之尺”，也是客观评测模型优劣的“高悬明镜”。

作为一个全领域评测体系，SKYLENAGE广泛覆盖语言理解与安全、多模态生成、AI4Science、行业任务、智能体决策与具身交互以及产品体验等维度，旨在通过开放可复现的基准与真实环境模拟，为模型的研发、选型与应用提供可靠参考，推动AGI健康、可信发展。

繁星共绘：从技术挑战到生态共建

来自北京大学王选计算机研究所的万小军教授，在云栖大会的舞台上指出，评测是引导大模型技术发展的“灯塔”，但当前正面临着数据失效、敏感、污染与评测困难等诸多问题。评测技术也正朝着自动化构建与动态更新、污染检测、训练专用评测/奖励模型、效用驱动以及人机协同等方向快速发展。构建可靠、高效、可解释的评测体系，是实现大模型健康发展和可信应用的关键所在。

北京电影学院摄影系副系主任齐虹教授，从资深导演与教育者的双重视角出发，以优酷AIGC作品《大唐狄公案》《闪耀吧！大运河》为例，阐述多模态视频生成亟需融入专业艺术评价维度，呼吁建立覆盖叙事、光影、运镜等维度的权威评测基准，以推动AIGC在影视领域的深度应用，共同迎接智能影视新时代的到来。

Innodata首席语言数据科学家Jonathan Steuck博士，在大会上分享了从全球视角出发的评测机遇与挑战。Jonathan认为，AI评估体系正经历三大关键演变：从评估单一文本生成转向复杂智能体与多用例协同；从依赖人工通用评估发展为“领域专家+大模型”协同的AI增强评估；从以美国为中心的标准转向多元文化对齐。

如何定义全面的大模型评测维度，是需要全球共同面对的技术难题，Turing技术副总裁Kai Du分享了其团队为前沿AI实验室构建专业领域评估基准的最新实践。通过高度自动化的数据生成与严格质量审查流程，Turing在三个月内高效构建了超过2000个高质量数据点，涵盖Verilog RTL设计、CUDA内核开发等多个硬科技领域，覆盖从代码生成到系统集成的多样任务，彰显专业评估对技术闭环的关键价值。

突破边界：三大创新评测集重磅亮相

论坛的最后迎来了关键的高潮，魏虎（空望）再次上台，正式发布了三大创新评测集，分别是面向高难度数学竞赛的评测集SKYLENAGE-Math，数学推理评测集SKYLENAGE-ReasoningMath，与业内首个系统性、细粒度的游戏代码生成评测数据集SKYLENAGE-GameCodeGym。

三大评测集凭借原创题目、严密体系与多维度自动化评估机制，有效应对数据污染、过程幻觉与评分脆弱等问题，为大模型能力评估提供更科学、权威且贴合真实场景的衡量标准，助力大模型在专业领域持续突破与可靠发展。

共建开放、权威的评测与标注生态

本次分论坛，海内外一同携手，系统梳理了大模型评测与数据标注的核心挑战与创新路径，展示了多项领先的方案与实践成果，为AI技术健康发展注入新动力。

当我们展望未来，或许终有一日，人工智能将强大到不再需要外在的尺度去衡量它——但当下的每一步评测探索，无不是在为那个真正智能时代的到来，铺设最后也是最关键的一段路基。唯有共建开放、协作、权威的评测标注生态，人工智能才能在公平、透明、高效的机制中稳步向前，最终赋能千行百业的根本性变革。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签