LLaSO框架推动语音语言模型协同创新

2025-09-14 13:14 辽宁

推动LSLM领域从「各自为战」向「协同创新」转变。

在大型语言模型（LLM）的浪潮下，多模态 AI 取得了飞速发展，尤其是在视觉语言（LVLM）领域，已经形成了成熟的研究范式。然而，与之形成鲜明对比的是，大型语音语言模型（LSLM）的发展却显得零散且步调缓慢。

该领域长期被碎片化的架构、不透明的训练数据和缺失的评估标准所困扰，导致研究之间难以进行公平比较，严重阻碍了技术的可复现性和社区的系统性进步。许多研究虽然发布了模型权重，但其赖以成功的关键 —— 训练数据和配置细节 —— 却常常被 “雪藏” 起来。

为了打破这一僵局，北京深度逻辑智能科技有限公司推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。

论文标题：LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

论文地址：https://arxiv.org/abs/2508.15418v1

代码地址：https://github.com/EIT-NLP/LLaSO

模型地址：https://huggingface.co/papers/2508.15418

LSLM 领域的技术挑战与研究痛点

相比视觉语言模型（LVLM）领域已形成 CLIP 编码器 + LLaVA 范式的成熟生态，LSLM 研究面临四大核心挑战：

1. 架构路径分化严重

当前 LSLM 架构主要包括外部特征融合、跨模态注意力机制、隐式对齐等多种技术方案，缺乏如 LVLM 领域般的统一范式。不同研究团队采用差异化架构，导致技术进展难以积累和比较。

2. 训练数据严重私有化

主流 LSLM 如 Qwen-Audio、Kimi-Audio 等均依赖私有数据训练，数据规模、质量、构成等关键信息不透明。这使得：

可复现性差：其他研究者无法复现相同结果

性能归因模糊：难以判断性能提升源于架构创新还是数据优势

研究门槛高：新入场者需要大量资源构建私有数据集

3. 任务覆盖局限性明显

现有数据集主要聚焦语义理解任务，对语音中的副语言学信息（paralinguistic information）如情感、口音、韵律、说话人特征等覆盖不足，限制了模型的全面语音理解能力。

4. 交互模态单一化

大多数 LSLM 仅支持 "文本指令 + 音频输入" 的单一交互模式，缺乏对 "音频指令 + 文本输入" 和纯音频交互等复杂模态组合的系统性支持。

LLaSO 框架：三大核心组件构建完整生态

图一：llaso 语料库的制作流程

LLaSO 框架通过三个核心开源组件解决上述挑战：

LLaSO-Align：大规模语音 - 文本对齐数据集

数据规模：1200 万语音 - 文本对齐样本

数据来源：聚合对话、有声书、多口音语音等多样化来源

技术目标：通过自动语音识别（ASR）任务建立语音表示与文本语义空间的精确对齐

质量控制：采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct：多任务指令微调数据集

数据规模：1350 万多任务指令样本

任务覆盖：涵盖语言学、语义学、副语言学三大类共 20 项任务

语言学任务：ASR、翻译、总结等基础语言理解

语义学任务：问答、推理、内容分析等高级认知

副语言学任务：情感识别、口音检测、说话人分析等

模态支持：系统性支持三种交互配置

文本指令 + 音频输入（Text-Audio）

音频指令 + 文本输入（Audio-Text）

纯音频指令与输入（Audio-Audio）

图二：LLaSO 语料库的任务组成

LLaSO-Eval：标准化评估基准

样本规模：15,044 个测试样本

数据隔离：与训练集严格分离，确保评估公平性

评估维度：覆盖所有 20 项任务的 comprehensive evaluation

可复现性：提供统一评估协议和自动化评估工具

图三：LLaSO-Base 在 LLaSO-Eval 基准测试上的表现结果

这三大组件共同构成了一个完整的训练、微调和评估流水线，为 LSLM 研究提供了前所未有的开放性和便利性。

LLaSO-Base：技术验证与性能基准

为验证框架有效性，逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。

模型架构设计

采用经典三阶段架构：

语音编码器：Whisper-large-v3，负责语音特征提取

模态投影器：多层感知机（MLP），实现语音 - 文本特征空间映射

语言模型 backbone：Llama-3.2-3B-Instruct，提供语言理解和生成能力

两阶段训练策略

对齐阶段：冻结编码器和 LLM，仅训练投影器，使用 LLaSO-Align 数据建立 modality alignment

指令微调阶段：联合训练投影器和 LLM，使用 LLaSO-Instruct 数据学习 complex instruction following

图四：LLaSO 模型架构示意图

LLaSO-Base 模型实验结果分析

我们在一系列严格设计的实验中，将 LLaSO-Base 与多个业界领先的语音语言模型（LSLMs）进行了直接对比。所有实验均在我们构建的标准化评估基准 LLaSO-Eval 上完成，确保了比较的公平性和结果的可复现性。

实验设置与评估基准

为确保评估的全面性，我们选取了 10 个主流的语音语言模型作为基准，包括 Qwen2-Audio、Typhoon-Audio、Salmonn、GLM-4-Voice、Mini-Omni、Kimi-Audio 等。所有模型的评估均在统一的 LLaSO-Eval 测试集上进行。

图五：详细描述了 LLaSO-Eval 评估基准的构成。

该基准包含 15,044 个样本，覆盖了 20 种不同任务。这些任务被系统地划分为三大类别，以实现对模型能力的深度剖析：

语言学任务 (Linguistic): 核心是自动语音识别 (ASR)，评估模型最基础的语音转文本能力。

语义任务 (Semantic): 核心是音频问答 (AQA)，评估模型对音频内容的高层次理解、推理和生成能力。

副语言学任务 (Paralinguistic): 进一步细分为 “以说话人为中心”（如性别、年龄、口音识别）和 “以内容为中心”（如意图预测、实体提取）两类，旨在评估模型对言外之意的捕捉能力。

评估指标说明

我们的评估体系采用了多种指标，以确保对模型各方面性能的精确衡量：

WER/CER (词 / 字错误率): 用于 ASR 等转录任务，数值越低，表示准确率越高。

Accuracy (准确率): 用于分类任务（如性别、口音识别），数值越高，性能越好。

MAE (平均绝对误差): 用于数值预测任务（如年龄识别），数值越低，预测越精准。

GPT-4o Score (GPT-4o 评分): 针对 AQA 等开放式生成任务，我们使用 GPT-4o 对模型输出的相关性和准确性进行 1-5 分的打分，分数越高代表表现越好。

Abstention Rate (拒绝回答率): 衡量模型在面对不熟悉或困难任务时的 “回避” 倾向。此比率越低，说明模型的指令遵循能力和鲁棒性越强。

总体性能对比：LLaSO-Base 表现全面领先

图六：直观地展示了所有模型在 LLaSO-Eval 上的总体性能得分（经过归一化处理）。

从图中可以清晰地看到，LLaSO-Base 取得了 0.72 的最高分，位列第一。这一成绩显著优于其他所有竞争模型，例如表现次之的 Kimi-Audio (0.65) 和 Qwen2-Audio (0.57) 。这一结果强有力地证明了 LLaSO-Base 的综合实力。研究发现，像 LLaSO-Base 这样在更多样化的任务上进行训练的模型，其综合性能远超那些主要针对 AQA 等少数任务进行优化的模型（如 Llama-Omni 和 Mini-Omni）。这凸显了我们所提倡的广泛任务覆盖训练策略的有效性。

详细任务性能分析

图七：深入比较了各模型在语言学 (ASR) 和语义 (AQA) 任务上的具体表现。

在 ASR 任务上，LLaSO-Base 展现了压倒性优势。其 WER 和 CER 分别低至 0.08 和 0.03，是所有模型中最低的，这意味着它拥有最精准的语音转录能力。相比之下，即便是 Kimi-Audio (WER 0.14) 和 Typhoon-Audio (WER 0.11) 等强劲对手，也存在明显差距。

在 AQA 任务上，竞争十分激烈。Kimi-Audio 在标准 “文本指令 + 音频输入” 模态下表现突出，获得了 3.35 的高分。LLaSO-Base 在此项上得分 2.58，表现稳健。但值得注意的是，在更具挑战性的 “音频指令 + 文本输入” 模态下，

LLaSO-Base 的得分 (2.70) 展现了更强的模态适应性，超过了多数模型。

图八：呈现了在 18 个细分的副语言学任务上的对比结果，这是对模型能否理解 “弦外之音” 的终极考验。

在这些更复杂的任务上，LLaSO-Base 几乎在所有任务上都取得了顶尖或接近顶尖的成绩。

以说话人为中心的任务：在说话人性别识别 (SGC) 和口音分类 (AC) 任务上，LLaSO-Base 的准确率名列前茅，展现了对说话人特征的敏锐洞察力。

以内容为中心的任务：LLaSO-Base 的优势更为显著。在音素识别 (PR) 任务中，其 PER 仅为 0.03；在语音命令识别 (SCR) 任务中，WER/CER 低至 0.04/0.02 。这两项指标均以数量级的优势领先于所有其他模型，展示了其在精细语音内容分析上的卓越能力。

指令遵循能力：更重要的是，LLaSO-Base 在这些任务中的拒绝回答率极低。相比之下，Llama-Omni 和 Mini-Omni 等模型在许多副语言学任务上直接选择 “拒绝回答”（表格中标记为 "Reject"），这表明它们缺乏处理此类任务的能力。LLaSO-Base 的稳定响应证明了其强大的指令遵循能力和任务泛化性。

模态泛化与任务覆盖度分析

图九：模型在不同输入模态下的性能稳定性

模态泛化能力 (Figure 9): 该图分析了模型在不同输入模态（纯音频、文本 + 音频、音频 + 文本）下的性能稳定性。结果显示，大多数模型在切换到不熟悉的模态时性能会下降。虽然 LLaSO-Base 也存在性能波动，但其在标准模态下的峰值性能远高于其他模型，这是其总体得分领先的关键。同时，研究也发现，采用 “交错或并行解码” 策略的模型（如 Mini-Omni、GLM-4-Voice）通常表现出更好的稳定性。

图十：模型训练正相关关系

任务覆盖度的重要性 (Figure 10): 该图清晰地揭示了模型训练任务数量与其性能和拒绝回答率之间的正相关关系。

LLaSO-Base 经过 20 个任务的训练，其总体性能和指令遵循能力（低拒绝回答率）均处于领先地位。而那些训练任务较少的模型，性能普遍偏低，且更容易 “拒绝” 回答，这进一步验证了 LLaSO 框架设计理念的正确性与前瞻性。

开源策略的技术价值与社区影响

对学术研究的推动作用

1. 可复现性保障：完整开放的训练数据和代码实现

2. 公平比较基础：统一评估基准消除 evaluation bias

3. 研究门槛降低：研究者可专注于算法创新而非数据收集

4. 技术积累加速：基于统一框架的增量改进更易实现

对工业应用的促进效应

1. 开发成本降低：相比私有数据方案节省数千万数据构建成本

2. 技术风险可控：开源方案的透明性降低技术选型风险

3. 定制化便利：开放架构支持针对性的领域 adaptation

4. 生态建设基础：为 LSLM 生态标准化提供参考实现

技术局限与未来方向

当前局限性

1. 模型规模：38 亿参数相比 GPT-4 级别模型仍有性能 gap

2. 多语言支持：主要针对英文和中文，其他语言覆盖有限

3. 实时性能：大模型推理延迟对实时应用仍有挑战

4. 长音频处理：对超长音频序列的处理效率有待优化

发展方向

1. 模型 scaling：探索更大规模模型的性能上限

2. 效率优化：模型压缩、量化等技术降低部署门槛

3. 多模态扩展：集成视觉信息实现 Audio-Visual-Language understanding

4. 领域适应：针对医疗、教育、客服等垂直领域的专用优化

结论

LLaSO 作为全球首个完全开源的 LSLM 研究框架，通过提供大规模数据、统一基准和参考实现，为语音语言模型研究建立了透明、可复现的技术基础设施。其开源策略不仅降低了研究门槛，更重要的是为 LSLM 领域建立了统一的技术标准，有望推动该领域从 "各自为战" 向 "协同创新" 转变。

随着框架的广泛采用和社区贡献，LLaSO 有望成为 LSLM 研究的 "ImageNet 时刻"，为构建真正理解人类语音 nuance 的 AI 系统奠定坚实基础。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签