国家数据局：我国日均 Token 消耗量突破 30 万亿，一年半时间增长 300 多倍

IT之家 08月14日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

国家数据局局长刘烈宏在新闻发布会上披露，中国人工智能应用规模正经历爆炸式增长。从年初日均消耗 1000 亿 Token，到 6 月底突破 30 万亿，一年半时间增长超过 300 倍。同时，高质量数据集建设成果斐然，已建超过 3.5 万个，总量超 400PB。数据交易活跃，累计交易额近 40 亿元，北京数交所高质量数据集占比达近 80%。中文数据在国内大模型训练中占比已超 60%，有力推动了模型性能提升。

📊 **AI应用指数级增长**：中国人工智能应用呈现爆发式增长态势，日均 Token 消耗量在一年半内从 1000 亿飙升至 30 万亿，增长幅度超过 300 倍，这直接反映了 AI 技术在各领域的广泛渗透和快速发展。

📚 **高质量数据集建设成果丰硕**：截至 6 月底，中国已成功建设超过 3.5 万个高质量数据集，总体量高达 400PB。这一庞大的数据集基础为 AI 模型训练提供了坚实支撑，是推动 AI 技术进步的关键要素。

💰 **数据交易市场日益活跃**：AI 模型训练的需求有效带动了数据交易。截至 6 月底，中国各地高质量数据集累计交易额接近 40 亿元人民币。数据交易机构挂牌的高质量数据集总规模已达 246PB，显示出数据作为核心生产要素的价值正在被充分挖掘。

📈 **北京数交所引领数据交易**：北京数交所在数据交易中的作用愈发突出，其高质量数据集占交易总量的比例已从去年的 10% 跃升至目前的近 80%，成为推动数据要素市场化配置的重要平台。

🗣️ **中文数据赋能大模型**：中文数据在国内大模型训练中的重要性日益凸显，目前多数模型的中文数据使用占比已超过 60%，部分模型甚至达到 80%。这表明中文数据的优化和应用是提升国内大模型性能的关键。

IT之家 8 月 14 日消息，据中国新闻网今天报道，国务院新闻办公室今天举行了“高质量完成‘十四五’规划”系列主题新闻发布会，其中国家数据局局长刘烈宏作出了相关报告、解读。

刘烈宏介绍道，2024 年初中国日均 Token 的消耗量为 1000 亿，截至今年 6 月底，日均 Token 消耗量已突破 30 万亿，1 年半的时间增长了 300 多倍，反映了我国人工智能应用规模快速增长。

刘烈宏还指出，中国一直在持续推进高质量数据集建设工作，截至今年 6 月底，中国已建设高质量数据集超过 3.5 万个，总体量超 400PB（409600TB）。

同时，AI 模型训练也推动了数据交易需求，今年 6 月底前中国各地高质量数据集累计交易额近 40 亿元人民币，数据交易机构挂牌的高质量数据集总规模达 246PB（251904TB）。北京数交所的高质量数据集占交易总量的比例从去年的 10% 跃升到目前的近 80%。

中文数据也在国内大模型的训练性能提升方面发挥重要作用，目前中国多数模型训练使用的中文数据占比已超过 60%，有的模型已达 80%。

IT之家注：Token（常被称为词元）是计算机科学与自然语言处理领域中的一个基础且重要的概念，通常指文本数据经过分词或标记化处理后的最小单位，其中单位可以是单词、标点符号、数字或其他任何有意义的符号。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签