昆仑万维发布SkyWork AI系列模型，Mureka V7.5音乐表现力再提升

昆仑万维集团 09月12日

昆仑万维于8月11日至15日举行SkyWork AI技术发布周，陆续推出SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0、Skywork Deep Research Agent等模型，并于8月15日上线Mureka V7.5模型。Mureka V7.5在中文歌曲演绎方面表现出色，通过深度理解中文曲风和元素，优化ASR技术提升人声表现的真实性与情感深度，生成音乐更具艺术性与真实感。同时，昆仑万维语音团队推出MoE-TTS，一个基于MOE的角色描述语音合成框架，可让用户通过自然语言描述精准控制声音特征与风格，在开放描述场景中表现优异。

🎵 Mureka V7.5在中文歌曲演绎方面表现出色，通过深度理解中文曲风和元素，优化ASR技术提升人声表现的真实性与情感深度，生成音乐更具艺术性与真实感。

🎤 MoE-TTS是一个基于MOE的角色描述语音合成框架，可让用户通过自然语言描述精准控制声音特征与风格，在开放描述场景中表现优异。

🚀 昆仑万维于8月11日至15日举行SkyWork AI技术发布周，陆续推出多款AI模型，覆盖多模态AI核心场景，展现了其在AI领域的研发实力。

原创昆仑万维 2025-08-15 09:03 北京

8月11日，昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日，我们每天发布一款新模型，连续五天，覆盖多模态AI核心场景的前沿模型。

截至目前，我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0、Skywork Deep Research Agent模型。

8月15日，昆仑万维正式上线Mureka V7.5模型。至此，昆仑万维SkyWork AI技术发布周完美收官。

Mureka 再进阶

Mureka V7.5 作品《梦想家》

Mureka V7.5在中文歌曲上的演绎再上新台阶，不仅实现了中文歌曲音色、演奏技法的大幅提升，还完成了中文歌曲咬字与情感表现提升。

首先，基于对中文曲风和元素的强大理解，Mureka的理解模型对传统民歌、戏曲到经典华语流行金曲乃至当代民谣音乐拥有深刻认知。这种在中文音乐多样性与文化特性上的深度积累，使模型在理解和生成中文音乐时，能够更准确地传达其特有的艺术神韵和情感色彩。

其次，为了进一步提升生成音乐中人声表现的真实性与情感深度，我们针对歌曲特点优化了 ASR 技术，使之成为理解模块的有力延伸。这项技术深入到演唱的微观层面，不仅精准识别唱词，更能通过分析真实演唱中的气息运用、情感起伏和唱法细节，智能划分出符合演唱规律的乐句，并确定自然的换气与停顿位置。结合同样精准的乐段识别，显著提升了生成人声的段落清晰度与结构真实感。

这些捕捉到的细粒度演唱信息反馈给生成模型，极大地增强了人声的自然度、呼吸感以及情感表达的真实性，有效削弱了机械感，使 AI 演绎的歌曲在流畅性上更贴近真人演唱，这在处理中文歌曲特有的韵律和气息要求时效果尤为突出。

正是这种结合在文化特性上的独特积累和针对歌曲演唱优化的 ASR 技术所带来的细节洞察，共同构成了我们在中文音乐生成领域的核心竞争力。

从下述Mureka V7.5生成的歌曲可以听出，它不仅能「听懂」对音乐旋律与节奏的制作要求，更能深刻理解并再现不同文化语境下，特别是中文音乐中蕴含的细腻情感与艺术表达，从而为生成高度符合目标审美与文化语境、兼具艺术性与真实感的音乐作品。

效果对比

MoE-TTS语音模型

同时，在语音模型方向上，昆仑万维语音团队推出MoE-TTS——首个基于MOE的角色描述语音合成框架。

作为面向开放描述（Out-of-domain Descriptions）场景的全新语音合成框架的研究性工作，该技术可让用户通过自然语言描述（例如“清澈的少年音带磁性尾韵”）精准控制声音特征与风格，在仅使用开源数据的条件下，对标甚至超越闭源商业产品的角色贴合度表现。

技术报告：https://teal-aquarius-c17.notion.site/MoE-TTS-Enhancing-Out-of-Domain-Text-Understanding-for-Description-based-TTS-via-Mixture-of-Experts-24e44360bf708040bff3dffe2eef805e

近年来，描述性语音合成虚拟助手、有声创作、数字人等领域展现出巨大潜力。然而，学术界长期受制于描述数据的局限性与模型对开放语义的泛化能力不足，导致面对比喻、类比等复杂修辞时，生成的语音往往偏离用户预期。

MoE-TTS的推出有望助力解决这一核心难题。该框架创新性地结合预训练大语言模型（LLM）文本能力与语音专家模块（Speech Expert Modules），为文本与语音分别配置专用专家模块，并在Transformer核心结构中引入模态路由，确保各模态独立优化、互不干扰。在冻结文本参数的同时高效对齐跨模态信息，实现“知识零损失”的泛化理解能力。

在涵盖域内与域外描述的双测试集上，MoE-TTS 与主流闭源 TTS 模型进行了六大维度对比评测：MoE-TTS 在风格表现力贴合度（SEA）和整体贴合度（OA）等声学控制上精准度领先，这正是其在复杂描述匹配度上胜出的关键。

MoE-TTS 的发布不仅为学术界提供了可复现的开放描述 TTS 解决方案，也证明了 模态解耦 + 知识冻结迁移 的技术路径在语音合成中的巨大潜力。这一突破有望推动行业从“封闭标签式控制”走向“自然语言自由控制”的新范式，加速数字人、虚拟助手和沉浸式内容创作的体验升级。

MoE-TTS目前仍在迭代中，后续规划将集成至旗下Mureka-Speech平台作为角色配音的基座模型，为全球开发者和创作者提供开放、高效、可定制的描述性语音合成能力。

案例1

角色设定prompt：US actor with a New York accent, versatile, articulate, with a dynamic pace, full of charm and charisma, attracting the attention of the audience.

台词文本prompt：Ay! Macbeth's soliloquy isn't words, it's blood and thunder in the mouth!

生成的音频如下：

案例2

角色设定prompt：Iron-Willed Strategist, Female, mature (35-50), deep and resonant voice, commanding tone with biting wit no-nonsense, formidable, and effortlessly dominant.

台词文本prompt：Victory isn't debated, it's seized. Every second spent doubting is a gift to your enemies. Do I make myself clear?

生成的音频如下：

欢迎全球用户体验全新V7.5模型

探索音乐创作的无限可能！

即刻体验：

www.mureka.ai

往期推荐

Mureka V7正式上线

Day3/5：Skywork UniPic 2.0模型开源

Day2/5：Matrix Game2.0模型开源

Day1/5：SkyReels-A3模型发布

Matrix-3D大模型开源