index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
科大讯飞星火大模型在多语言能力方面取得显著进展,覆盖130+语种,翻译效果、实时响应等大幅提升。讯飞基于多年语音识别、合成、同传等技术积累,提出跨语言语义空间对齐的多语言路由建模技术,有效解决多语言模型效果不均衡等问题。星火X1多语言能力在多个语种上超越GPT-4.1,星火语音大模型支持37个主流语种的语音识别,40个语种的语音合成。未来,讯飞将致力于跨模态数据构建、跨语言建模能力增强等方向,推动多语言技术发展。
🌍 讯飞星火大模型多语言能力覆盖130+语种,翻译效果、实时响应等大幅提升,为“一带一路”等国家战略提供关键支撑。
🗣️ 星火语音大模型支持37个主流语种的语音识别,40个语种的语音合成,并实现202种方言的免切换语音识别。
🖼️ 星火图文识别大模型采用跨语种联合建模方法,在14个主要语种中实现业界一流的图文识别准确率。
🧠 讯飞提出基于跨语言语义空间对齐的多语言路由建模技术,有效解决多语言模型效果不均衡等问题。
🚀 未来将致力于跨模态数据构建、跨语言建模能力增强等方向,推动多语言技术发展。
原创 iFLYTEK RESEARCH 2025-08-12 17:16 北京

语言是大模型的基础,随着大模型在全球范围的风靡与延展,大模型多语言能力的重要性和实用度也备受关注。不久前,科大讯飞星火X1大模型全面升级,多语言能力覆盖130+语种;基于星火X1底座的语音同传大模型在翻译效果、实时响应、语音听感、专业精深等方面大幅跃升。在大模型的多语言能力上,讯飞基于多年深耕多语言相关的语音识别、合成、同传、机器翻译等技术,正在探寻与实践一条全新路径。我们将分享目前在讯飞星火大模型多语言技术上的心得、成果与趋势研判,希望有更多人参与到多语言大模型及应用的构建当中,真正实现“给世界提供第二种选择”。以下内容整理自讯飞研究院院长刘聪在WAIC 2025“科大讯飞高级别高水平多语言基座大模型国际学术研讨会”上的演讲
目前,大模型在中英文上已经达到了很好的效果;但客观来说,在多语言上的效果还有待进步。大模型为多语言技术带来的机遇大模型为多语言技术发展带来了全新的机遇,挖掘出巨大的需求潜力:多语言大模型为“一带一路”国家战略、人机交互等重大需求提供关键支撑;
国际AI巨头纷纷加码多语言大模型研发,通用大模型正在从中英文向多语言拓展;少数国家研发仅支持本国语言的大模型,但仍处于起步阶段(如越南、印尼等研发了面向本国语言的大模型)。
同时,大模型还能更好解决当前多语言技术遇到的难题:不同的语言在语法结构、词汇语义方面存在巨大的差异,现有的模型泛化不足,很难在不同语言上形成泛化推广的能力;
相较于中英文等主要语种具有海量数据的情况,很多小语种的语言分析研究、专家知识积累不足,导致训练数据稀缺;多语言技术在实际应用中除了文本翻译,还会结合语音翻译、图片翻译等环节,中间造成的延续性级联误差扩散,都会影响多语种识别效果,导致最终翻译结果错误。
科大讯飞在多语言技术上拥有深厚的积淀。例如2008-2015年之间,我们先后在语音合成、语音评测、语音识别等领域首次超过人类或人类专家水平,此后在机器翻译、机器阅读理解和常识推理等方向上持续突破,并且承担了语音及语言信息处理国家工程研究中心、国家新一代人工智能开放创新平台、认知智能全国重点实验室等平台,这些都为之后星火大模型的多语言技术研发奠定了坚实的基础。讯飞星火多语言大模型 2024年10月,在发布讯飞星火4.0 Turbo版本的同时,我们首发了星火多语言大模型,首批支持中英之外的俄、日、阿、韩、法、西、葡、德8个重点语种,在汽车、家电、办公、翻译等行业任务场景应用效果优秀;同时对外开放给开发者和行业伙伴接入使用。
此后,我们持续迭代多语言大模型的能力水平,并不断拓展至更多语种。2025年7月,全新升级的讯飞星火X1大模型可支持超过130种语言的通用问答,能完成日常问答、数学答题、文本生成和翻译等任务,重点语种的效果上超过GPT-4.1,让无障碍跨语言交流更进一步。
星火X1多语言能力展示 在多语言大模型的构建过程中,面对不同语种效果不均衡、低资源语种效果不佳、单模型多语言能力建模引发语种互相干扰等问题,我们提出了基于跨语言语义空间对齐的多语言路由建模技术:在共享模型底层参数的技术之上,多语种数据输入后,在编码模块实现底层多语言语义对齐,在顶层编码模块加入多语种路由模块;这种基于语种专家路由的多语言大模型架构,能够实现不同语言之间个性化信息的精准建模,大幅提升了模型的多语言理解和生成能力。讯飞星火语音大模型的多语言技术科大讯飞在2024年1月也正式推出了星火语音大模型,首批37个主流语种的语音识别效果超过OpenAI Whisper V3,多语种语音合成方面则实现了首批40个语种平均MOS分绝对提升0.25,拟人度超83%;在2024年10月,星火语音大模型的多语种多方言免切换语音识别能力,首次全部覆盖了全国地级市共202种方言。星火语音大模型与多语言技术同样紧密结合:语音识别我们提出了语音属性解耦表征、多语种多任务联合建模等创新算法,目前已实现了语音大模型对100个语种的语音识别。针对语音多维属性耦合性强,无法显示与下游任务建立信息映射关系等难题,我们提出了结合语音属性解耦预训练的语音大模型,通过构建不同信息维度、不同颗粒度的信息码本作为预训练的层级训练目标,并围绕多语种多任务进行联合建模,更好地实现了预训练任务与下游任务在信息维度上的关联。这样不仅使语音识别效果提升30%-50%,也实现了202种方言的免切换使用。语音合成我们提出了三阶段层次化语音建模框架,它包含:非自回归模型建模细粒度信息,表征音色及音质的细节。
在这一框架下,语音大模型支持发音内容和音色特征可控分离,目前实现了55个语种的语音合成,其中超30个语种效果达到国际领跑或并跑水平。讯飞星火图文识别大模型的多语言技术2024年4月,我们正式发布了星火图文识别大模型,能够处理非常复杂的版面分析,结合篇章的语义和文字理解能力进一步提升,覆盖更多专用领域的特殊专业符号。针对不同语种的文字建模和编码不一致的问题,我们提出了兼具语种特性和编码统一的跨语种联合建模方法:对于有偏旁部首结构的语种,按照偏旁部首建模,有效地解决了长尾字符出现频率较低的问题; ——如中文、韩文、日语、泰语
对于字符形态变化较大的语种,按照子词建模,确保子词下的字符形态是统一且稳定的,显著减少了建模的歧义; ——如阿拉伯语、维语对于字符形态稳定的语种,直接按照普通字符进行建模; ——如英语、俄语
我们还提出将上述建模单元按照UC码进行统一编码并拆分成两个字节,从而保证多语种建模的字典统一性,也避免了传统多语种统一建模引发的字典过大问题。
目前,星火图文识别大模型在中、英、日、韩等14个使用人口最多的语种中,图文识别准确率处于业界一流水平。讯飞星火大模型多语言技术的下一步?未来,我们将会沿着这几个方向持续研发:进行跨模态数据构建,实现语音和文本多模数据的共建和共享;增强跨语言建模能力,打造融合跨语言知识迁移能力的多语言通用大模型,通过跨语言语义空间对齐方案、跨语言知识密集型数据合成方案和通用多语种强化学习机制,来提升多语言通用和推理能力。建设原生多语种语音大模型底座,对语音、文本、多语种进行同时建模,提高多场景多语种混合下的实用效果。
“从技术中来,到产品中去”。目前,讯飞星火大模型多语言相关技术已应用在多款C端智能软硬件产品当中,例如讯飞翻译机、会议耳机、讯飞听见、办公本等,能够解决不同场景下用户跨语言交流障碍,覆盖办公、旅游、政务等领域。讯飞多语言技术不仅为“中国智造”产品出海提供有力支撑,实现手机、汽车、家电等语音人机交互方式的全面升级;也通过讯飞开放平台为国内外开发者提供全栈式服务,吸引越来越多的海外开发者和技术专家与我们共建星火生态。不论是北京2022年冬奥会和冬残奥会上各国参与者之间“无缝”对话,还是布达佩斯2023年世界田径锦标赛上能听会说的吉祥物Youhuu,以及联合国中法建交60周年活动上流动的中法跨语言字幕……多语种技术使得我们正在走向一个信息沟通高效、无障碍的新纪元。我们将以“技术赋能”和“生态共建”双轮驱动,携手全球伙伴共建开放平台、共享技术成果和应用场景,希望用“中国智慧”助力不同文化背景的国家弥合智能鸿沟,构建更加包容、普惠的全球人工智能生态。阅读原文
跳转微信打开