科大讯飞研究院 09月12日
讯飞星火大模型多语言技术进展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞星火大模型在多语言能力方面取得显著进展,覆盖130+语种,翻译效果、实时响应等大幅提升。讯飞基于多年语音识别、合成、同传等技术积累,提出跨语言语义空间对齐的多语言路由建模技术,有效解决多语言模型效果不均衡等问题。星火X1多语言能力在多个语种上超越GPT-4.1,星火语音大模型支持37个主流语种的语音识别,40个语种的语音合成。未来,讯飞将致力于跨模态数据构建、跨语言建模能力增强等方向,推动多语言技术发展。

🌍 讯飞星火大模型多语言能力覆盖130+语种,翻译效果、实时响应等大幅提升,为“一带一路”等国家战略提供关键支撑。

🗣️ 星火语音大模型支持37个主流语种的语音识别,40个语种的语音合成,并实现202种方言的免切换语音识别。

🖼️ 星火图文识别大模型采用跨语种联合建模方法,在14个主要语种中实现业界一流的图文识别准确率。

🧠 讯飞提出基于跨语言语义空间对齐的多语言路由建模技术,有效解决多语言模型效果不均衡等问题。

🚀 未来将致力于跨模态数据构建、跨语言建模能力增强等方向,推动多语言技术发展。

原创 iFLYTEK RESEARCH 2025-08-12 17:16 北京

语言是大模型的基础,随着大模型在全球范围的风靡与延展,大模型多语言能力的重要性和实用度也备受关注。

不久前,科大讯飞星火X1大模型全面升级,多语言能力覆盖130+语种;基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升。

在大模型的多语言能力上,讯飞基于多年深耕多语言相关的语音识别、合成、同传、机器翻译等技术,正在探寻与实践一条全新路径。我们将分享目前在讯飞星火大模型多语言技术上的心得、成果与趋势研判,希望有更多人参与到多语言大模型及应用的构建当中,真正实现“给世界提供第二种选择”。

以下内容整理自讯飞研究院院长刘聪在WAIC 2025“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”上的演讲

目前,大模型在中英文上已经达到了很好的效果;但客观来说,在多语言上的效果还有待进步。

大模型为多语言技术带来的机遇

大模型为多语言技术发展带来了全新的机遇,挖掘出巨大的需求潜力:

同时,大模型还能更好解决当前多语言技术遇到的难题:

科大讯飞在多语言技术上拥有深厚的积淀。例如2008-2015年之间,我们先后在语音合成、语音评测、语音识别等领域首次超过人类或人类专家水平,此后在机器翻译、机器阅读理解和常识推理等方向上持续突破,并且承担了语音及语言信息处理国家工程研究中心、国家新一代人工智能开放创新平台、认知智能全国重点实验室等平台,这些都为之后星火大模型的多语言技术研发奠定了坚实的基础。

讯飞星火多语言大模型

2024年10月,在发布讯飞星火4.0 Turbo版本的同时,我们首发了星火多语言大模型,首批支持中英之外的俄、日、阿、韩、法、西、葡、德8个重点语种,在汽车、家电、办公、翻译等行业任务场景应用效果优秀;同时对外开放给开发者和行业伙伴接入使用。

此后,我们持续迭代多语言大模型的能力水平,并不断拓展至更多语种。2025年7月,全新升级的讯飞星火X1大模型可支持超过130种语言的通用问答,能完成日常问答、数学答题、文本生成和翻译等任务,重点语种的效果上超过GPT-4.1,让无障碍跨语言交流更进一步。

星火X1多语言能力展示

在多语言大模型的构建过程中,面对不同语种效果不均衡、低资源语种效果不佳、单模型多语言能力建模引发语种互相干扰等问题,我们提出了基于跨语言语义空间对齐的多语言路由建模技术:

在共享模型底层参数的技术之上,多语种数据输入后,在编码模块实现底层多语言语义对齐,在顶层编码模块加入多语种路由模块;这种基于语种专家路由的多语言大模型架构,能够实现不同语言之间个性化信息的精准建模,大幅提升了模型的多语言理解和生成能力。

讯飞星火语音大模型的多语言技术

科大讯飞在2024年1月也正式推出了星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3,多语种语音合成方面则实现了首批40个语种平均MOS分绝对提升0.25,拟人度超83%;在2024年10月,星火语音大模型的多语种多方言免切换语音识别能力,首次全部覆盖了全国地级市共202种方言。

星火语音大模型与多语言技术同样紧密结合:

语音识别

我们提出了语音属性解耦表征、多语种多任务联合建模等创新算法,目前已实现了语音大模型对100个语种的语音识别

针对语音多维属性耦合性强,无法显示与下游任务建立信息映射关系等难题,我们提出了结合语音属性解耦预训练的语音大模型,通过构建不同信息维度、不同颗粒度的信息码本作为预训练的层级训练目标,并围绕多语种多任务进行联合建模,更好地实现了预训练任务与下游任务在信息维度上的关联。这样不仅使语音识别效果提升30%-50%,也实现了202种方言的免切换使用。

语音合成

我们提出了三阶段层次化语音建模框架,它包含:

在这一框架下,语音大模型支持发音内容和音色特征可控分离,目前实现了55个语种的语音合成,其中超30个语种效果达到国际领跑或并跑水平

讯飞星火图文识别大模型的多语言技术

2024年4月,我们正式发布了星火图文识别大模型,能够处理非常复杂的版面分析,结合篇章的语义和文字理解能力进一步提升,覆盖更多专用领域的特殊专业符号。

针对不同语种的文字建模和编码不一致的问题,我们提出了兼具语种特性和编码统一的跨语种联合建模方法:

我们还提出将上述建模单元按照UC码进行统一编码并拆分成两个字节,从而保证多语种建模的字典统一性,也避免了传统多语种统一建模引发的字典过大问题。

目前,星火图文识别大模型在中、英、日、韩等14个使用人口最多的语种中,图文识别准确率处于业界一流水平。

讯飞星火大模型多语言技术的下一步?

未来,我们将会沿着这几个方向持续研发:

“从技术中来,到产品中去”。目前,讯飞星火大模型多语言相关技术已应用在多款C端智能软硬件产品当中,例如讯飞翻译机、会议耳机、讯飞听见、办公本等,能够解决不同场景下用户跨语言交流障碍,覆盖办公、旅游、政务等领域。讯飞多语言技术不仅为“中国智造”产品出海提供有力支撑,实现手机、汽车、家电等语音人机交互方式的全面升级;也通过讯飞开放平台为国内外开发者提供全栈式服务,吸引越来越多的海外开发者和技术专家与我们共建星火生态。

不论是北京2022年冬奥会和冬残奥会上各国参与者之间“无缝”对话,还是布达佩斯2023年世界田径锦标赛上能听会说的吉祥物Youhuu,以及联合国中法建交60周年活动上流动的中法跨语言字幕……多语种技术使得我们正在走向一个信息沟通高效、无障碍的新纪元。

我们将以“技术赋能”和“生态共建”双轮驱动,携手全球伙伴共建开放平台、共享技术成果和应用场景,希望用“中国智慧”助力不同文化背景的国家弥合智能鸿沟,构建更加包容、普惠的全球人工智能生态。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

讯飞星火大模型 多语言技术 人工智能 语音识别 机器翻译
相关文章