IT之家 08月06日
你有想象过喜欢的 UP 主说英语的样子吗?B 站上线 AI 原声翻译功能,基于自研模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Bilibili Index 团队发布了其自研的 IndexTTS2 模型,带来了“原声风格”视频配音功能。该功能能够将中文视频翻译并配以目标语言的原声风格配音,使视频中的人物声音、语气、节奏及个性表达都与原片高度一致,如同本人亲自用外语讲话。IndexTTS2 模型通过创新的“时间编码”机制解决了传统 AR 模型在语音时长控制上的难题,同时保留了 AR 架构的自然韵律和风格迁移优势。此外,该模型还运用了音色克隆、声场一致性、多声源融合等技术,解决了声音人格缺失、字幕干扰等传统配音痛点,并针对多说话人场景进行了优化。未来,B站计划支持更多语言并开源该模型,以促进多语言、跨模态内容的全球化传播。

🌟 B站 IndexTTS2 模型实现“原声风格”视频配音,能将中文视频翻译为外语,使配音声音、语气、节奏与原片人物高度一致,如同本人亲说。

💡 IndexTTS2 模型创新性地引入“时间编码”机制,解决了传统 AR 模型难以精确控制语音时长的痛点,同时保持了韵律自然、风格迁移和多模态扩展性。

🚀 该模型运用音色克隆、声场一致性、多声源融合等技术,克服了声音人格缺失、字幕干扰等传统配音难题,并针对多说话人场景进行了优化。

✨ 在视频层面,结合字幕擦除和 Diffusion 模型实现高保真唇形同步,确保音画一致性,提升观众沉浸感。

🌐 B站计划未来支持更多语言,并开源 IndexTTS2 模型,旨在推动多语言、跨模态内容在全球范围内的传播。

IT之家 8 月 6 日消息,Bilibili Index 团队于 8 月 4 日发布博文,宣布通过自研 IndexTTS2 模型,推出“原声风格”视频配音功能,可以支持将部分中文视频翻译为外语的原声风格配音。

IT之家此前曾介绍该功能上线而在最新博文介绍中,官方介绍了该功能背后的 AI 模型。

该团队表示通过该自研模型,让视频人物不再是千篇一律的“代言人声线”,而是像本人亲自讲外语一样自然,声音、语气、节奏,甚至个性表达都和原片几乎一致,观众可以听到“这个人用另一种语言在说话”。

BILIBILI IndexTTS2 模型架构

该模型创新性地提出了一种通用于 AR 系统的“时间编码”机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。

团队还推出通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。

系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。

在视频层面,结合字幕擦除与基于 Diffusion 的高保真唇形同步,确保音画一致与沉浸感。B站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容全球化传播。

相关阅读:

参考

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

B站 AI配音 IndexTTS2 多语言 视频翻译
相关文章