阿里技术 09月28日
阿里发布大模型评测平台“晓天衡宇”及三大创新评测集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

在2025云栖大会上,阿里巴巴AI数据总经理魏虎发布了新一代大模型评测平台“晓天衡宇”SKYLENAGE,以及面向数学竞赛、数学推理和游戏代码生成的创新评测集。该平台旨在构建一个系统、客观、权威的评测体系,以“评测驱动”AI进化,克服传统基准评测面临的数据污染、评估维度单一等挑战。论坛汇聚了多位专家学者,共同探讨大模型评测与数据标注的前沿发展,强调标准化、专业化和国际化的重要性。三大创新评测集——SKYLENAGE-Math、SKYLENAGE-ReasoningMath和SKYLENAGE-GameCodeGym,以其原创题目和多维度自动化评估机制,为大模型在专业领域的可靠发展提供科学衡量标准,共同构建开放、协作、权威的AI评测标注生态。

💡 **“晓天衡宇”SKYLENAGE平台发布**:阿里巴巴推出了新一代大模型评测平台“晓天衡宇”SKYLENAGE,旨在构建一个系统、客观、权威的评测体系,以“评测驱动”AI的持续进化,应对传统基准评测面临的数据污染、评估维度单一等挑战。该平台覆盖语言理解、多模态生成、AI4Science等全领域,为模型研发、选型和应用提供可靠参考。

🚀 **三大创新评测集重磅登场**:为应对AI在专业领域的挑战,阿里巴巴发布了三项创新评测集:SKYLENAGE-Math(面向数学竞赛)、SKYLENAGE-ReasoningMath(数学推理)以及业内首个系统性、细粒度的SKYLENAGE-GameCodeGym(游戏代码生成)。这些评测集通过原创题目、严密体系和多维度自动化评估,能更科学、权威地衡量大模型在这些高难度领域的真实能力。

🤝 **共建开放AI评测标注生态**:本次评测标注分论坛汇聚了顶尖院校、机构及海内外大模型数据服务商,共同探讨AI评测与数据标注的前沿发展、国际实践与行业挑战。与会者强调了标准化、专业化和国际化的重要性,并呼吁构建一个开放、协作、权威的评测标注生态,以推动人工智能健康、可信发展,赋能千行百业的根本性变革。

📈 **评测技术发展趋势**:论坛上,专家学者们分享了评测技术的发展方向,包括自动化构建与动态更新、污染检测、训练专用评测/奖励模型、效用驱动以及人机协同等。这些趋势表明,AI评测正朝着更高效、更智能、更具适应性的方向发展,以匹配AGI快速迭代的需求。

阿里数据 2025-09-26 17:03 浙江

阿里巴巴新一代大模型评测平台“晓天衡宇”SKYLENAGE,及三大创新评测集发布。

“当大模型不再关注刷榜时,AGI或许才真正到来 ......”

9月26日,位于杭州云栖小镇的“2025云栖大会评测标注分论坛”上,阿里巴巴AI数据总经理魏虎(空望),正式发布了阿里巴巴新一代的大模型评测平台“晓天衡宇”SKYLENAGE,以及分别针对数学竞赛、数学推理与游戏代码生成三大高难度领域的创新评测集:SKYLENAGE-Math、SKYLENAGE-ReasoningMath和SKYLENAGE-GameCodeGym。

这场主题为“繁星共绘:构建开放的AI评测标注新生态”的论坛,汇聚了来自北京大学、北京电影学院、Innodata、Turing等顶尖院校与机构的专家学者,以及海内外数十家大模型数据服务商,共同围绕大模型评测与数据标注的前沿发展、国际实践与行业挑战展开深度对话,聚焦AI评测与数据标注的技术突破与生态共建,加速推进模型评测与标注的标准化、专业化和国际化进程,为人工智能的高质量发展提供了交流的舞台。

晓天衡宇:以评测驱动AI进化

传统基准评测已难以匹配AGI发展的速度与复杂性,正面临数据污染、评估维度单一、滞后于技术迭代等多重挑战。魏虎(空望)在论坛演讲中指出,亟需构建一个系统、客观、权威的评测体系,打造以“评测驱动”为核心的高质量数据飞轮机制,让评测不仅是衡量AI能力的尺子,更要成为推动AI持续进化的重要引擎。

高质量、高难度、高专业度的标注与动态评测体系,是实现模型持续进化的重要前提。通过高考真题、IMO竞赛题等实战案例,阿里巴巴的AI数据团队展示了其敏捷、深度的评测能力,“晓天衡宇”SKYLENAGE应运而生。

“晓”与“衡”,象征着评测的清晰洞察和聚焦分析,代表着智慧、经验和公正的判断;“天”与“宇”,则表明了这一评测平台的广阔视野和宏大格局。这既是一把衡量AI模型的“高度”与“深度”的“量天之尺”,也是客观评测模型优劣的“高悬明镜”。

作为一个全领域评测体系,SKYLENAGE广泛覆盖语言理解与安全、多模态生成、AI4Science、行业任务、智能体决策与具身交互以及产品体验等维度,旨在通过开放可复现的基准与真实环境模拟,为模型的研发、选型与应用提供可靠参考,推动AGI健康、可信发展。

繁星共绘:从技术挑战到生态共建

来自北京大学王选计算机研究所的万小军教授,在云栖大会的舞台上指出,评测是引导大模型技术发展的“灯塔”,但当前正面临着数据失效、敏感、污染与评测困难等诸多问题。评测技术也正朝着自动化构建与动态更新、污染检测、训练专用评测/奖励模型、效用驱动以及人机协同等方向快速发展。构建可靠、高效、可解释的评测体系,是实现大模型健康发展和可信应用的关键所在。

北京电影学院摄影系副系主任齐虹教授,从资深导演与教育者的双重视角出发,以优酷AIGC作品《大唐狄公案》《闪耀吧!大运河》为例,阐述多模态视频生成亟需融入专业艺术评价维度,呼吁建立覆盖叙事、光影、运镜等维度的权威评测基准,以推动AIGC在影视领域的深度应用,共同迎接智能影视新时代的到来。

Innodata首席语言数据科学家Jonathan Steuck博士,在大会上分享了从全球视角出发的评测机遇与挑战。Jonathan认为,AI评估体系正经历三大关键演变:从评估单一文本生成转向复杂智能体与多用例协同;从依赖人工通用评估发展为“领域专家+大模型”协同的AI增强评估;从以美国为中心的标准转向多元文化对齐。

如何定义全面的大模型评测维度,是需要全球共同面对的技术难题,Turing技术副总裁Kai Du分享了其团队为前沿AI实验室构建专业领域评估基准的最新实践。通过高度自动化的数据生成与严格质量审查流程,Turing在三个月内高效构建了超过2000个高质量数据点,涵盖Verilog RTL设计、CUDA内核开发等多个硬科技领域,覆盖从代码生成到系统集成的多样任务,彰显专业评估对技术闭环的关键价值。

突破边界:三大创新评测集重磅亮相

论坛的最后迎来了关键的高潮,魏虎(空望)再次上台,正式发布了三大创新评测集,分别是面向高难度数学竞赛的评测集SKYLENAGE-Math,数学推理评测集SKYLENAGE-ReasoningMath,与业内首个系统性、细粒度的游戏代码生成评测数据集SKYLENAGE-GameCodeGym。

三大评测集凭借原创题目、严密体系与多维度自动化评估机制,有效应对数据污染、过程幻觉与评分脆弱等问题,为大模型能力评估提供更科学、权威且贴合真实场景的衡量标准,助力大模型在专业领域持续突破与可靠发展。

共建开放、权威的评测与标注生态

本次分论坛,海内外一同携手,系统梳理了大模型评测与数据标注的核心挑战与创新,展示了多项领先的方案与实践成果,为AI技术健康发展注入新动力。

当我们展望未来,或许终有一日,人工智能将强大到不再需要外在的尺度去衡量它——但当下的每一步评测探索,无不是在为那个真正智能时代的到来,铺设最后也是最关键的一段路基。唯有共建开放、协作、权威的评测标注生态,人工智能才能在公平、透明、高效的机制中稳步向前,最终赋能千行百业的根本性变革。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型评测 晓天衡宇 SKYLENAGE AGI AI评测 数据标注 云栖大会 人工智能 LLM Evaluation AI Benchmarks
相关文章