我国多数模型使用的中文数据占比超 60%，部分已达 80%

IT之家 08月14日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

国家数据局局长刘烈宏在新闻发布会上透露，我国人工智能模型训练所用中文数据占比已超过60%，部分模型甚至达到80%。这得益于中文高质量数据的开发和供给能力的增强，显著提升了我国模型的性能。此外，人工智能模型训练也带动了数据交易需求，截至今年6月底，各地高质量数据集累计交易额接近40亿元。上海、天津、安徽等地正试点数据、语料作价入股等创新模式，鼓励企业将高质量数据集折算为股权。国家数据局将持续推进高质量数据集建设，特别是在具身智能、低空经济、生物制造等重点领域，并推动数据要素价值共创，培育为优质数据付费的市场和公司。

📊 **中文数据占比提升驱动模型性能**：国家数据局局长刘烈宏指出，我国人工智能模型训练所使用的中文数据占比已显著提升，多数模型超过60%，部分高达80%。这一进步得益于中文高质量数据的开发和供给能力的增强，直接推动了我国模型性能的快速提升。

💰 **数据交易市场蓬勃发展**：人工智能模型训练的需求攀升，带动了数据交易市场的活跃。截至今年6月底，全国高质量数据集的累计交易额已接近40亿元人民币，显示出数据作为一种重要生产要素的价值正在被市场广泛认可和开发。

📈 **创新数据价值实现模式**：为了进一步盘活数据资源，上海、天津、安徽等地区正在积极试点新的数据价值实现模式，包括允许数据和语料按照一定价值折算为股权进行投资。这种模式的探索有助于引导企业重视和贡献高质量数据集，促进数据要素的价值共创。

🚀 **聚焦重点领域数据高地建设**：国家数据局将采取体系化布局，着力推进高质量数据集的建设，特别是在具身智能、低空经济、生物制造等前沿和重点发展领域，旨在打造具有竞争力的“数据高地”，为相关产业的创新发展提供坚实的数据支撑。

💡 **培育数据要素价值共创生态**：未来，国家数据局将致力于推进数据要素的价值共创，通过培育能够为优质数据买单的市场和公司，进一步激发数据流通和应用的活力，构建一个健康、可持续的数据要素市场生态系统。

IT之家 8 月 14 日消息，据央视新闻报道，今天（8 月 14 日），国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会。

国家数据局局长刘烈宏在新闻发布会上表示，大家非常关心中文数据占训练数据的比重问题，经过一段时间的努力，国内多数模型使用的中文数据占比已超过 60%，有的模型已达到 80%。中文高质量数据的开发和供给能力持续增强，使得我国模型性能快速提升。

IT之家注意到，刘烈宏还表示，人工智能模型训练推动数据交易需求攀升，截至今年 6 月底，各地高质量数据集累计交易额近 40 亿元。上海、天津、安徽等地正在试点数据、语料作价入股等新的模式，引导企业将高质量数据集折算为股权。

刘烈宏在发布会上表示，国家数据局将通过体系化布局持续推进高质量数据集建设，加快打造具身智能、低空经济、生物制造等重点领域的数据高地。同时，将推进数据要素价值共创，培育为优质数据买单的市场、公司。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签