原创 北京深度逻辑智能 2025-09-18 14:03 广东
它像一个“全家桶”,打包提供了高质量的数据、统一的评测基准和强大的基础模型。
作者丨北京深度逻辑科技

📚 LLaSO框架包含三个核心公开资源:LLaSO-Align(对齐数据集)、LLaSO-Instruct(指令数据集)和LLaSO-Eval(评估基准)。这些资源共同构成了一个完整的训练、微调和评估流水线,为语音大模型研究提供了前所未有的开放性和便利性。
🗣️ LLaSO-Align是一个包含1200万样本的庞大语料库,专注于“语音转文字”任务,让模型学会将语音信号和文字的语义精准对应起来,这是模型“听懂”话语的基础。
🤖 LLaSO-Instruct拥有1350万样本的多任务指令库,涵盖了20种不同的任务,包括识别说话人的情感、口音、年龄,判断话语的意图,甚至支持纯语音对话,是打造下一代智能助理和高效会议纪要工具的关键。
🏆 LLaSO-Eval是一个包含超过1.5万个样本的“标准化考场”,所有模型都可以在这个统一的基准上进行测试,确保了评估的公平性和可复现性,为语音大模型性能提供了可靠的衡量标准。
原创 北京深度逻辑智能 2025-09-18 14:03 广东
它像一个“全家桶”,打包提供了高质量的数据、统一的评测基准和强大的基础模型。
作者丨北京深度逻辑科技
为什么语音大模型的发展会遇到瓶颈?这就像一群顶尖厨师,虽然各有绝活,但因为菜谱、厨具和评价标准完全不同,大家根本不知道谁的厨艺更胜一筹,也难以学习借鉴。该领域主要面临几大核心挑战:技术路线分歧:在如何让AI同时理解语音和文字上,目前的技术路线非常多,但没有一个公认的、效果最好的标准范式。数据私有化:许多领先模型都依赖私有的海量数据进行训练。这使得其他研究者无法复现其结果,也难以判断模型的优越性是来自算法创新还是数据“堆料”。任务范围局限:现有数据集大多只关注“语音转文字”等基础任务,而忽略了语音中更丰富的信息,例如情感、口音、语调和说话意图。交互模式单一:大多数模型仅支持“用文字下指令,让模型分析音频”的单一模式,很少能处理更复杂的纯语音对话。这些问题共同导致了研究的碎片化,使得系统性的技术突破变得异常困难。
为了验证LLaSO框架的有效性,研究团队还训练并发布了一个名为LLaSO-Base的参考模型。该模型拥有38亿参数,其设计目标并非追求性能的极致,而是为了提供一个完全依赖LLaSO公开数据、可被轻松复现的强大基线。模型架构:LLaSO-Base采用了已被验证的成功架构,由三部分组成:一个语音编码器(听觉)、一个投影器(转换)和一个大型语言模型(大脑)。训练过程:训练分为“对齐”和“指令微调”两个阶段,先让模型学会语音和文字的对应关系,再通过海量指令任务教会模型如何“思考”和执行复杂任务。图四:LLaSO模型架构示意图
我们在一系列严格设计的实验中,将LLaSO-Base 与多个业界领先的语音语言模型(LSLMs)进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-Eval 上完成,确保了比较的公平性和结果的可复现性。实验设置与评估基准 为确保评估的全面性,我们选取了10个主流的语音语言模型作为基准,包括Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的LLaSO-Eval 测试集上进行。 图五:详细描述了 LLaSO-Eval 评估基准的构成。 该基准包含15,044 个样本,覆盖了 20 种不同任务。 这些任务被系统地划分为三大类别,以实现对模型能力的深度剖析:●语言学任务(Linguistic): 核心是自动语音识别 (ASR),评估模型最基础的语音转文本能力 。●语义任务(Semantic): 核心是音频问答 (AQA),评估模型对音频内容的高层次理解、推理和生成能力 。●副语言学任务(Paralinguistic): 进一步细分为“以说话人为中心”(如性别、年龄、口音识别)和“以内容为中心”(如意图预测、实体提取)两类,旨在评估模型对言外之意的捕捉能力 。评估指标说明我们的评估体系采用了多种指标,以确保对模型各方面性能的精确衡量: ●WER/CER (词/字错误率): 用于 ASR 等转录任务,数值越低,表示准确率越高。 ●Accuracy (准确率): 用于分类任务(如性别、口音识别),数值越高,性能越好。 ●MAE (平均绝对误差): 用于数值预测任务(如年龄识别),数值越低,预测越精准。 ●GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务,我们使用 GPT-4o 对模型输出的相关性和准确性进行1-5 分的打分,分数越高代表表现越好。 ●Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的“回避”倾向。此比率越低,说明模型的指令遵循能力和鲁棒性越强。总体性能对比:LLaSO-Base 表现全面领先 图六:直观地展示了所有模型在 LLaSO-Eval 上的总体性能得分(经过归一化处理)。 从图中可以清晰地看到,LLaSO-Base 取得了 0.72 的最高分,位列第一 。这一成绩显著优于其他所有竞争模型,例如表现次之的Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现,像 LLaSO-Base 这样在更多样化的任务上进行训练的模型,其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型(如 Llama-Omni 和 Mini-Omni)。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。详细任务性能分析 图七:深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现 。 ●在ASR 任务上,LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03,是所有模型中最低的,这意味着它拥有最精准的语音转录能力 。相比之下,即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手,也存在明显差距 。 ●在AQA 任务上,竞争十分激烈。Kimi-Audio 在标准“文本指令+音频输入”模态下表现突出,获得了 3.35 的高分 。LLaSO-Base 在此项上得分 2.58,表现稳健 。但值得注意的是,在更具挑战性的“音频指令+文本输入”模态下, LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性,超过了多数模型 。 图八:呈现了在 18 个细分的副语言学任务上的对比结果,这是对模型能否理解 “弦外之音” 的终极考验。在这些更复杂的任务上,LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。●以说话人为中心的任务:在说话人性别识别(SGC) 和口音分类 (AC) 任务上,LLaSO-Base 的准确率名列前茅,展现了对说话人特征的敏锐洞察力 。●以内容为中心的任务:LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中,其 PER 仅为 0.03;在语音命令识别 (SCR) 任务中,WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型,展示了其在精细语音内容分析上的卓越能力。指令遵循能力:更重要的是,LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下,Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择“拒绝回答”(表格中标记为 "Reject"),这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。
LLaSO的出现,为相对混乱的语音大模型领域树立了一个开放、统一的基础标准。通过首次发布涵盖数据、基准和模型的完整开源资源,LLaSO极大地降低了研究门槛,使开发者能在一个公平、透明的平台上进行比较和创新。我们有理由相信,这个“全家桶”式的开源项目将催化语音大模型领域的下一波浪潮,为开发者们铺平了道路,让打造出真正懂你心声的AI语音应用成为可能。
//
推荐阅读
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑