index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
语音大模型在实际落地中常遇到“幻觉”和“串语种”等问题,影响用户体验。FunAudio-ASR 作为一款端到端语音识别大模型,通过创新的Context增强模块,利用CTC解码器提供上下文引导,有效解决了这些痛点。该模块几乎不增加推理耗时,显著降低了幻觉率,并缓解了串语种现象。此外,FunAudio-ASR还集成了RAG机制,实现了高效的领域词定制化,提升了识别准确性,并已成功应用于钉钉等多个产品场景,展现了其在企业级应用中的稳定性和高精度。
💡 **核心问题与解决方案:** 文章指出,当前主流语音大模型架构虽然提升了识别准确率,但在实际应用中常出现“幻觉”(模型生成不存在的内容)和“串语种”(识别结果语言与音频不符)等问题。FunAudio-ASR 创新性地提出了 Context 增强模块,通过 CTC 解码器生成首轮转写文本作为上下文信息,引导 LLM 更准确地理解音频内容,从而有效解决上述两大痛点。
🎯 **“幻觉”与“串语种”的成因及优化:** “幻觉”源于声学特征与文本特征在向量空间上的天然差异,模型容易“脑补”信息。FunAudio-ASR 通过在训练数据中加入大量仿真数据,并提供上下文引导,将幻觉率从78.5%大幅降低至10.7%。而“串语种”则因 LLM 的翻译能力在声学特征映射不精确时被触发,FunAudio-ASR 通过 CTC 的高质量训练和上下文引导,有效聚焦于语音识别任务,缓解了翻译行为。
🚀 **高效定制化识别的实现:** 针对工业落地中必不可少的个性化定制需求,FunAudio-ASR 引入了 RAG(检索增强生成)机制。通过构建定制词知识库,并依据 CTC 解码结果动态检索相关词汇,精准注入 LLM Prompt,避免无关信息干扰,从而将定制化上文数量扩充至上千个,且在不增加推理复杂度的前提下,保持了高水平的关键词准确率,满足了工业级定制化需求。
🌐 **实际应用与效果验证:** FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中得到实际应用,验证了其在真实企业环境中的稳定性和高精度识别能力,特别是在垂直行业专业术语和高噪声环境等复杂场景下表现出色。其定制化能力已从词汇层面提升到企业知识层面,进一步提升了结果的可靠性。
原创 语音实验室 2025-09-15 19:07 浙江
让语音大模型真正“靠得住、用得上”!

语音大模型识别不准?“幻觉”“串语种”频发?定制词总被忽略?
当前语音大模型的主流架构,是在大语言模型(LLM)前接入声学编码器,将音频特征映射到文本空间,再由LLM生成转写结果。这一方案虽显著提升了识别准确率,但在实际产品落地中,仍面临幻觉、串语种、重复解码、定制化效果不稳定等问题。这些问题虽不常出现,一旦发生,便直接影响用户体验和产品可靠性。
今天,我们正式推出 FunAudio-ASR —— 一款专为解决企业落地难题而生的端到端语音识别大模型。它不仅拥有高精度的通用识别能力,还通过创新的 Context 增强模块,针对性优化了“幻觉”、“串语种”等工业场景中的关键问题。
在语音大模型落地过程中,我们发现“幻觉”与“串语种”是两类高频出现的典型问题。 其根源在于 LLM 缺乏准确、稳定的上下文引导。
为此,我们创新性地设计了 Context 增强模块 —— 一个轻量、高效的前端结构,通过 CTC 解码器快速生成第一遍转写文本,并将该结果作为上下文信息输入 LLM,辅助其更准确地理解音频内容。
由于 CTC 是轻量化、非自回归结构,该模块几乎不增加额外推理耗时,却带来了双重优化效果:
相比于文本 LLM,语音大模型的“幻觉”问题尤为突出。这是因为声学特征与文本特征在向量空间上天然存在差异,导致模型在“听”完音频后,容易“脑补”出大量不存在的内容。
“ 错误识别结果:你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你我说不尽的春风吹又生 尽管通过训练将声学特征对齐到文本特征空间,由于声学特征 Embedding 与真实的文本 Embedding 仍然存在这一定的差距,这会导致LLM在生成文本时发生幻觉的现象。
声学特征Embedding与真实的文本Embedding分布差异
图片来源:https://arxiv.org/pdf/2410.18908
我们通过探索发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。
为此,我们设计了 Context 增强模块:该模块通过 CTC 解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入 LLM,辅助其理解音频内容。由于 CTC 结构轻量且为非自回归模型,几乎不增加额外推理耗时。
此外,我们观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。我们构建了一个包含 28 条易触发幻觉音频的测试集,经优化后,幻觉率从78.5% 下降至 10.7%。
“串语种”是语音大模型落地中的另一类典型问题。具体表现为:输入音频内容为英文,模型输出却为中文文本。这是因为文本 LLM 本身具备翻译能力,在声学特征映射不够精确时,模型可能在推理过程中“自动启动”翻译功能,从而影响语音识别的准确性。
“ 错误识别结果:ข้ามูเตรล่า 到現嚟奉獻,又要再令我個心肉碎。stay Stay six morning after. xin nâng tay 我的胃。在 FunAudio-ASR 的 Context 增强模块中,CTC 解码器经过高质量数据训练,本身发生串语种的概率极低。通过将 CTC 的第一遍解码结果作为 Prompt 输入给 LLM,可有效引导模型聚焦于语音识别任务,缓解“翻译”行为的发生。
我们将 FunAudio-ASR 与行业典型模型及开源 SOTA 模型进行对比测试,重点关注语音识别在远场、嘈杂背景等挑战性场景下的表现。为此,我们构建了五大类测试集。
FunAudio-ASR-nano 为轻量化版本,在保持较高识别准确率的同时,具备更低的推理成本,适合对资源敏感的部署环境。
与行业知名模型对比图
在 ASR 的工业落地中,个性化定制是必不可少的技术。所谓定制化,是指在识别过程中对特定词/短语(如人名、地名、品牌、专业术语等)施加额外概率偏好,从而显著提高它们的识别召回率,同时尽量不损伤通用识别准确率。
当前行业主流做法,是将用户提供的领域词直接作为 Prompt 输入 LLM。该方法虽简单有效,但随着词量增加,干扰也随之上升,导致召回率下降——即“定制化能力衰减”。
为缓解这一问题,我们在 Context 增强结构中引入 RAG(检索增强生成)机制:
构建知识库:将用户配置的定制词构建成专属 RAG 库;
动态检索:依据 CTC 第一遍解码结果,从RAG库中抽取相关词汇;
精准注入:仅将相关词汇注入 LLM 的 Prompt 中,避免无关信息干扰。
该方案在不增加推理复杂度的前提下,将定制化上文数量扩充到上千个以上,并且保持较高的定制化识别效果。
⬇️ 领域词定制化能力对比表 ⬇️
(【错误率】表示整条音频识别错误率,越低表示识别效果越好。【关键词准确率】识别结果中,领域词识别的准确率,越高表示领域词识别越好。)
“效果验证:我们在微积分学、有机化学、物理学、哲学、人名等5个领域,选取了1000个专业词汇进行测试。FunAudio-ASR 在关键词准确率上表现优异,满足工业级定制化需求。目前,FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用,验证了其在真实企业环境中的稳定性和高精度识别能力,特别是在垂直行业专业术语、高噪声环境等复杂场景下的表现。
在相关产品演示中,“AI听记”展示了对互联网、科技、家装、畜牧、汽车等10+领域、200+细分行业术语的识别能力,并支持在企业授权前提下,结合通讯录、日程等上下文信息进行推理优化,进一步提升结果可靠性。这不仅是对实验室数据的
规模化应用,更是将“定制化”从词汇层面提升到了企业知识层面。
魔搭社区体验:https://modelscope.cn/studios/iic/FunAudio-ASR
阿里云百炼平台:
https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1
技术报告:https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf
文末互动:你最希望语音识别在哪个场景下“零失误”?多人的会议记录?嘈杂的客服电话?还是充满“黑话”的行业访谈?欢迎文末留言,我们将从留言区随机选出3位同学,送出通义定制礼盒。
声音也能有情绪?CosyVoice 全面升级!
开发更可控,部署更便捷:AgentScope 迈入1.0时代
阅读原文
跳转微信打开