V2EX 10月13日 16:31
自制中文有声小说项目,声音克隆与TTS技术选型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

该项目旨在通过克隆或微调中文声音,实现自然流畅、富有表现力的有声小说音频生成。项目采用“说学逗唱”的相声风格,注重节奏、停顿和情绪控制。技术路线分为快速上手的生成类方案(如Suno Bark)和高可控的训练类方案(Speaker Encoder → VITS/Coqui-TTS → HiFi-GAN)。项目计划在本地使用PyTorch+CUDA进行训练/推理,并考虑显存优化技巧如fp16、LoRA和梯度累积。面临的主要问题是显卡选型(3060 12GB vs 3060Ti 8GB)以及轻量微调的可行性,同时探索相声风格的语音生成方法。

🎙️ 项目核心是声音克隆与微调,目标是实现自然、生动的中文有声小说音频,特别是采用相声风格的语气、节奏和情绪表达,强调停顿和情感传递。

🖥️ 技术选型上分为两类:生成类(如Suno Bark)适合快速测试和风格调整,但声音稳定性不可控;训练类(Speaker Encoder → VITS/Coqui-TTS → HiFi-GAN)通过录制20-60分钟音频微调,能稳定克隆音色并支持prosody/style token控制语气。

⚙️ 训练/推理环境采用PyTorch+CUDA,因显存限制需采用fp16、LoRA和梯度累积等优化策略,以在R5 5600G+32GB内存+待选显卡(3060/3060Ti)配置下高效运行。

🤔 显卡选型关键问题:12GB显存的3060或8GB显存的3060Ti哪个更适合TTS任务?实测经验显示显存容量通常比算力更重要,需评估轻量微调是否足够。

🔍 推理速度和显存占用是关键指标:Bark/VITS/Coqui-TTS/HiFi-GAN的本地运行表现如何?推荐显存优化技巧包括混合精度训练、模型并行化或使用半精简模型LoRA。

🎭 “相声风格”语音生成难点:目前是否有成熟的风格迁移或prosody控制方法?可能需要结合文本情感分析、韵律模型或特定风格词典来实现。

📈 长期迭代计划:项目将逐步优化声音模型,通过社区资源(如GitHub)获取开源工具和教程,结合用户反馈持续改进音频质量和风格表现。

V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。


💡 我的需求大致是:

    先克隆/微调一个中文声音,让声音自然、不机械。风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。后期做有声小说输出

🖥️ 当前设备配置:


🔧 初步技术路线:

我目前查下来主要有两条思路:

    快速上手路线(生成类)

      使用 Suno Bark 或类似大模型,直接生成多情感中文语音;适合先试效果、调节 prompt 实现“相声语气”;缺点是声音不一定稳定、不可控。

    高可控路线(训练类)

      管线:Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ;录制 20 ~ 60 分钟高质量音频做微调;目标是克隆稳定音色、能生成自然语调的中文语音;支持 prosody / style token 控制节奏语气。

计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。


❓ 想请教 V 友们:

    3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?

      听说显存容量在 TTS 场景下比算力更关键,想听下大家的实测经验。

    如果只做轻量微调(不从零训练),3060Ti 是否足够?

    有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?

      推理速度和显存占用大概怎样?有没有推荐的显存优化技巧?

    对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?


✅ 目标:

能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。


大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

中文有声小说 声音克隆 文本到语音 本地TTS PyTorch 显存优化 相声风格 HiFi-GAN Coqui-TTS VITS
相关文章