大家好,我们是 BILIBILI Index 团队。最近,我们上线了一个新能力:支持将部分中文视频翻译为外语的原声风格配音。也就是说,观众现在可以听到“这个人用另一种语言在说话”,但他的声音、语气、节奏,甚至个性表达都和原片几乎一致,不再是那种传统配音里千篇一律的“代言人声线”,而是像本人亲自讲外语一样自然。这背后,其实是一整套跨模态、多语言协同生成系统的能力升级。这一系列技术探索的出发点,源于一个日益迫切的需求:随着视频内容全球化的深入,多语言传播已成为连接文化与社群的关键载体。观众不再满足于“听懂”,而是追求“真实感”与“在场感”——希望听到原声的情绪起伏、看到口型与语音的自然匹配;创作者也愈发意识到,声音不仅是信息的载体,更是人格表达与情感共鸣的核心媒介。要实现真正沉浸式的跨语言体验,必须突破当前本地化流程中的关键限制,其中最具代表性的是以下三类挑战:声音人格的缺失:传统配音虽解决语言障碍,却抹去了创作者独特的音色、语调与口音——这些正是“谁在说话”的核心标识。在人格化传播时代,声音是IP的重要组成部分。一旦被标准化配音取代,情感连接断裂,影响力随之衰减。避免字幕的认知负担:字幕将声音降维为文字,丢失语气、情绪与节奏,削弱内容表现力。同时,“听音+读字”的双模输入造成注意力割裂,尤其在高密度知识类或沉浸式内容中,严重影响理解效率与观看体验。降低本地化的成本壁垒:多语言制作依赖复杂的人工流程:配音、对轨、混音、校对……每增一语种,成本指数级上升。中小创作者难以承担,全球化沦为少数人的特权。在本文中,我们将系统性地介绍该能力的技术架构与核心挑战,并分享我们在实践中如何逐步实现这些目标。02|面向感知一致性的语音生成建模
传统TTS系统通常以语音自然度、可懂度和音色相似度为主要优化目标,缺乏对原始听觉场景的多维建模能力。而视频级语音翻译本质上是感知一致性重建,需协同建模三个关键维度:说话人身份特征、声学空间属性,以及多声源时频结构,方能实现听觉体验的完整迁移。说话人身份特征重建:传统配音常因使用固定配音演员或通用声库,导致合成语音与原演员声线错位,这种“音色失真”让原本角色的语气、个性和表现力都被弱化。针对这一问题,我们自研的 BILIBILI IndexTTS2 重点在视频语音翻译场景保持高精度音色克隆,仅通过原语音中的少量信息,就在发声质感与语用风格上高度还原原始说话人特征。声学空间属性保留:人对声音的空间属性存在潜意识感知,包括混响特性、麦克风距离与环境噪声等,共同构成空间上的听觉线索。这种由混响、空间残响、麦克风距离、背景噪声等构成的声学环境信息,也是构建听感真实性的重要因素。BILIBILI IndexTTS2的另一个特色就是可以保留原始声场特征,这种声场一致性,能显著提升听觉连贯性,避免“脱场感”。多声源时频结构融合:原始音轨中的人声、背景音乐与环境音共同构建了动态的听觉节奏与情绪张力。为避免简单替换导致的感知断裂,我们在音频合成时,结合了人声、背景声、音乐等进行感知加权重建,尽可能的贴合原片的听感。2.1 一体化解决跨语言音色一致、情绪迁移难以及语速控制的问题在真实的视频翻译场景中,想要实现一套完整且自然的“原声风格”翻译体验,仅仅将内容翻译成目标语言远远不够。我们真正要解决的,是在语音生成层面,跨语言地保留说话人的“声音个性”,并同时维持语气情绪的一致性和语速节奏的自然过渡。这背后隐藏着多个技术层面的挑战:音色的一致性在跨语言场景中天然存在缺口。许多传统语音合成系统在迁移语言时,容易将说话人的音色“带偏”——比如中文中圆润的发音特征,迁移到英语后容易变尖、偏硬,导致“听起来像是另一个人在说话”。这种音色偏差破坏了原声重建的核心感知基础。情绪迁移难以量化控制。说话人原本的语气、态度、语义强调,在不同语言中表达方式不同。例如中文中“质疑”可能通过语调变化呈现,而在英文中则依赖更多语法和节奏结构。一旦模型缺乏对原始情绪结构的建模能力,就会生成语气单一、缺乏感染力的声音输出,观感显著下降。语速控制在翻译重建中格外复杂。不同语言的表达长度差异大,同一句话用英文讲可能比中文长 30%以上,而原视频的音轨时长是固定的。这就要求模型具备跨语言节奏预测和信息压缩能力,否则就容易出现“语速过快听不清”或“说完提前停顿”等违和现象。这些问题在原声翻译中常常不是孤立发生,而是交织叠加,互相放大。例如音色偏移会削弱情绪的传达能力,情绪错误又会进一步放大语速与节奏的突兀感,最终导致整段配音听起来“假”、“不自然”。因此,我们在系统设计上,必须从前端建模、音色编码、跨语言对齐,到语速调控与声音合成,全流程协同建模、统一优化,才能真正实现原声风格的跨语言还原。 BILIBILI IndexTTS2模型架构在 BILIBILI IndexTTS2 中,我们创新性地提出了一种通用于 AR 系统的“时间编码”机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计让我们在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。BILIBILI IndexTTS2 引入了音色与情感解耦建模机制,处理支持单音频参考以外,额外支持分别指定音色参考与情感参考,实现更加灵活、细腻的语音合成控制。同时,模型还具备基于文本描述的情感控制能力,可通过自然语言描述、使用场景描述、上下文线索等进行精准调节合成语音的情绪色彩。这种架构使得 BILIBILI IndexTTS2 在跨语言合成中具备了高度的表现力,无论何种语言系统都能够将原语音中人物的个性与情绪自然地注入到目标语言的语言中,实现保音色、保情感、保风格的高质量视听重建。2.2 解决观看时多角色混淆问题在原声翻译的实际场景中,多说话人是极为常见的情况。若仅用单一说话人进行重建,会极大降低还原度,破坏视频原有的交流氛围和角色关系。然而,若要保留多说话人信息,最核心的前提就是对说话人进行精准切分。一旦说话人分割出错,不仅会影响语义理解,后续的翻译与音色合成也将受到连锁影响,使得最终结果出现严重失真。在实际处理多说话人视频时,说话人分割面临一系列复杂挑战。传统的 diarization 方法往往假设说话人交替有清晰边界、语音持续时间较长、语音信噪比可接受,但这些假设在真实的视频场景中往往并不成立。此外,以下这些地方也都是很明显的技术挑战:多说话人频繁交替且衔接紧密,有时几乎没有间隔,甚至存在明显的语音重叠,这使得边界识别变得极其困难;视频中经常出现极短发言的说话人,例如仅有一两个字的“嗯”“哦”“对”等,虽然简短但具有语义功能,极易被模型忽略或错误归类;部分角色在整段视频中只出现一两次,这些低频发言人由于缺乏充分的声纹特征支撑,在聚类阶段极易被合并至其他发言人;很多视频中说话人之间声纹差异较小,加上背景音乐、环境声干扰较强,进一步增加了区分难度,许多微妙的音色特征只有人类仔细听辨才能分辨,而传统算法常常力不从心。这些挑战叠加在一起,使得说话人分割成为原声翻译流程中最容易“牵一发而动全身”的环节,一旦分错,不仅语义理解会出错,后续翻译和音色合成也会随之受到误导,从而在最终结果中放大错误。为此,我们提出了一套创新的说话人分割方法,专为原声翻译场景设计。首先,我们将语音流按语义划分为多个小粒度语义片段,再以片段为单位进行说话人聚类,从根本上缓解边界模糊与重叠干扰问题;其次,在聚类层面引入了对低频说话人识别的增强策略,重新设计聚类算法的相似性约束,避免重要但稀有的发言被忽略或合并;此外,我们对基础的说话人特征模型进行了升级,采用端到端说话人训练机制,大幅提升了在噪声背景下的说话人区分能力,使模型能更准确地捕捉个体语音特征。使得在后续的声音重建过程中,通过自动匹配原视频的混响和空间声像,让多说话人语音自然地融入视频原有环境,增强空间感、临场感与真实感,最终呈现出更加一致、和谐的视听体验。03|面向语音对齐的跨语言语义与文化适配建模
如今,内容的跨语言传播正日益与个体表达深度融合。从观众自发的字幕协作,到创作者对多语言表达的主动探索,人们不再满足于单纯的语言转换,而是更加关注声音背后的真实语调、情感特质与文化语境。一种强调语言多样性与表达原真性的创作趋势正在显现——声音本身,正成为意义的一部分。然而,在迈向全球传播的过程中,我们也必须正视现实挑战:传统配音在解决语言障碍的同时,也在无形中抹去了声音个性与文化基因;字幕虽是信息桥梁,却常常成为认知干扰源,削弱沉浸体验与艺术表达;而高昂的本地化成本,则成为中小创作者难以跨越的门槛,限制了内容出海的可能性。面对这些问题,技术正在成为关键的破局者。未来的原声翻译系统,不仅要实现语言层面的精准转换,更要做到声音个性的保留、情绪张力的还原、文化语境的适配。为了更好地覆盖多样化内容生态,我们在面向UGC场景时,关注创作者和消费者的需求,未来将支持更多语言,助力全球多语言交流。同时,针对PGC场景,我们设计了更加严谨和可控的工作流程与技术方案,保障高质量、多语言、跨模态的视听语言迁移体验,实现内容的专业呈现与高效制作。我们也计划将BILIBILI IndexTTS2模型开源,期待推动整个行业技术进步,欢迎大家持续关注与使用!我们正站在一个内容无界、声音有温度的新起点。当技术不再只是工具,而是成为表达的一部分,我们才真正迎来一个既听得懂语言、也听得见灵魂的全球内容生态。也欢迎更多 AI 研究者、内容创作者、产品开发者与我们一起打磨这项技术。体验地址:https://m.bilibili.com/topic-detail?topic_id=1317580&bsource=topic.share 本文参考:[2506.21619] IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech(https://arxiv.org/abs/2506.21619)[2506.05070] RIVAL: Reinforcement Learning with Iterative and Adversarial Optimization for Machine Translation(https://arxiv.org/abs/2506.05070)-End-作者丨Index团队开发者问答关于原声视频翻译技术,大家认为还有哪些潜在的优化方案或创新思路?欢迎在留言区分享你的见解~转发本文至朋友圈并留言,即可参与下方抽奖⬇️小编将抽取1位幸运的小伙伴获取JOJO的奇妙冒险 石之海 冷水杯抽奖截止时间:8月12日12:00如果喜欢本期内容的话,欢迎点个“在看”吧! 往期精彩指路