index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
PotPlayer播放器迎来重磅更新,新增无字幕视频实时翻译功能。本文详细介绍了如何配置该功能,包括选择合适的语音识别引擎和模型,以应对不同电脑配置和网络环境。文章深入探讨了多种翻译方案,如百度翻译、在线AI大模型(硅基流动)以及本地Ollama搭建,并提供了相应的插件和配置教程。同时,作者还分享了PotPlayer的下载、引擎模型下载搬运资源,以及整合包,旨在帮助用户轻松实现视频的实时字幕生成与翻译,并对该功能的性能要求进行了说明。
🌟 **PotPlayer新增实时字幕生成功能**:最新版PotPlayer支持“生成有声字幕(实时)”,允许用户在播放过程中随意拖动进度条,软件会从当前位置开始进行字幕转写,解决了旧版本仅支持从视频开头转写的问题,提升了用户体验。
⚙️ **多样的语音识别引擎与模型选择**:文章详细介绍了如何根据用户电脑配置(如显卡驱动支持Vulkan API或NVIDIA显卡)选择合适的语音识别引擎(如whisper.cpp Vulkan、CUDA、BLAS、CPU),并根据显存大小和识别延时需求,选择不同尺寸的语音识别模型(tiny至large),提供了详细的性能对比参考。
🌍 **丰富的字幕翻译方案**:为解决识别出的源语言字幕翻译问题,文章提供了多种翻译方案:包括免费的Google翻译(需科学上网)、需申请API的百度翻译(提供国内网盘插件)、通过硅基流动API调用AI大模型(如Deepseek、Qwen等),以及利用Ollama搭建本地AI大模型服务以保障隐私。每种方案都附带了详细的配置步骤和资源获取方式。
📦 **一站式资源与整合包**:考虑到国内用户下载引擎、模型和插件可能遇到的困难,作者提供了国内网盘的下载链接,并打包了一个包含所有功能配置的绿色整合版PotPlayer(约20GB),方便用户一键获取,省去繁琐的配置过程。
💻 **性能考量与未来展望**:文章强调,PotPlayer的实时字幕生成与翻译功能对电脑性能有一定要求,配置较低的电脑可能会影响字幕生成的速度和质量。此外,作者预告了下一篇文章将介绍不吃电脑性能、手机可用且支持在线本地视频的实时翻译方案。
原创 砺心 2025-09-19 19:17 四川
依旧是那个最强播放器!
点击头像即可关注
最近很多粉丝反馈收不到公众号更新,解决办法: ⇧ 点上方头像 » 点右上角••• » 设为星标⭐
原本阿虚的理念是 「能用,就没必要更新」 但最近我无意刷到一篇文章才知道,我很早之前推荐过的视频播放器 Potplayer 现在竟然已经更新了 无字幕视频实时翻译 功能 那这可就很值得更新一下了! 只是回过头来说实话,想要「舒服」的用上这个功能可谓一点儿不简单 花了几天时间写篇文章给大家分享一下,也顺便记录下自己的折腾过程! 文末有一键免配置整合包!不想折腾的粉丝可以直接去文末获取! 另外 PotpPlayer 仅支持 Windows 端, Mac 电脑想玩请考虑装 Windows 虚拟机,我之前出过教程👇 1 PotPlayer 下载 首先 PotPlayer 的版本问题上,阿虚就差点搞昏 一开始我就是简单换上了 PotPlayer 最新版,然后边测试边写教程,结果教程都写一半了,才发现好像不对劲 因为看到不少网上已有的教程里面推荐使用 Faster-Whisper-XXL 引擎,据悉是语音识别速度会比 whisper.cpp 更快。 但很奇怪在我下载的版本里面却没有这个引擎 我尝试从绿色版换成官方版,又尝试了自己手动下载安装引擎…… 折腾半天,最后才搞清楚了问题所在——原因出在功能细节上 网上已有的教程,普遍都是基于 2025 年 6 月 25 日这个 PotPlayer 版本,这个版本里面仅有 生成有声字幕功能 ,而 2025 年 9 月9 日的最新版 PotPlayer 多出了一个 生成有声字幕(实时) 功能 看似雷同,但这两个功能其实是有本质上区别的! 1.1 生成有声字幕 仔细看,生成有声字幕有一个「播放开始时自动生成」的选项 所以这个功能并不是真正意义上的实时转写,而是你打开某个视频之后,在后台 从视频开头进行转写 如果你的每次视频是从头看到尾,那这个功能用起来,也的确和实时生成无异 毕竟合理选择引擎+模型的话, 可能 1 个小时的视频,几分钟就能完成语音转字幕 但是如果你想拉动进度条,从中间某个位置开始播放,那就需要等待几分钟转写进度到这里了,才会开始显示字幕,体验就相当差了…… 1.2 生成有声字幕(实时) 而最新版 PotPlayer 的实时字幕生成功能,就没有了上述缺点,你可以随意拖动进度, 软件都会从当前播放位置开始进行字幕转写 但目前最大的缺点就是,实时字幕生成功能并不支持 Faster-Whisper-XXL、Whisper-Faster 等「转录速度更快」的引擎 具体为啥不支持,目前未知,可能是这些引擎与实时生成功能 冲突 或者说官方 暂时没完成适配 吧…… 但实时生成这个功能还属于 Beta 测试版,或许今后官方是能加上支持的,大家可以先期待一下 2 配置语音识别 这里的话,阿虚先以实时字幕生成为核心来介绍下新版 PotPlayer 安装好播放器之后,打开任意视频,在播放界面 右键 ⇨ 字幕 ⇨ 生成有声字幕(实时) ⇨ 生成有声字幕(实时) 默认是不使用 ,后续你想用的时候,自行选择「始终使用」或者「如果没有字幕则使用」等等 2.1 转换引擎与模型的选择 然后这一步我们需要选择 转换引擎 以及 语音识别模型 ,并进行下载! 转换引擎这里: 模型型号这里: 一共有 6 大类模型尺寸可以选择,其中 4 种有仅支持英语版本(其在仅英语语境下表现更佳,尤其是 tiny.en 和 base.en 模型。对于 small.en 和 medium.en 模型,这种差异不太明显) 下面有一个官方在 A100 显卡测试环境下转录英语语音测得的一个表格数据, 仅供参考 ,实际速度会因为语言、语速和硬件等产生很大差异 模型
文件大小
仅支持英文模型
多语言模型
所需显存
相对 large 识别速度
tiny
39 M
tiny.en
tiny
约 1 GB
约 10 倍
base
74 M
base.en
base
约 1 GB
约 7 倍
small
244 M
small.en
small
约 2 GB
约 4 倍
medium
769 M
medium.en
medium
约 5 GB
约 2 倍
large
1550 M
无
large
约 10 GB
1 倍
turbo
809 M
无
turbo
约 6 GB
约 8 倍
<<左右滑动查看表格>> 此外,turbo 模型是 large-v3 的优化版本,它能提供更快的转录速度,同时准确性的下降微乎其微。电脑显存足够的话肯定优先考虑这个而不是 medium 模型 “ 因为实时语音转录,必然是存在识别延时的,所以你并不能无脑选择越大的模型 ” 可以看到下图,阿虚电脑上如果选择 large-v3 这个「识别效果更好的模型」,识别延时会高达 20~30 秒,对于实时翻译这个场景来说几乎属于不能用的地步 但如果舍弃精准度,把模型改为 small,可以看到识别延时一下就降低到了 2~3秒,这就完全堪用了(换用 base、tiny 还会更快),个人觉得 Small 模型的识别效果就挺哇塞的了 不过这里也是因为阿虚电脑没有显卡,是以 CPU 转换做演示,本身就要慢一些。如果你用着 5090,那转换速度肯定会快得多 所以具体选择哪个模型,只能大家根据自己的电脑去实测一下 2.2 模型下载 配置方法说完,紧接着问题就来了…… 因为「转换引擎」和「模型文件」都位于国外服务器,不富强上网的话,国内大多数用户都会遇到 下载失败 所以阿虚这里帮大家把「转换引擎」和「模型文件」都搬运到国内网盘了,最后阿虚这里还搞了一个所有功能配置完毕的绿色整合版(包含所有转换引擎和模型,整体有20GB),网速支持又想省事的粉丝可以直接下载这个 具体资源下载地址的话请看文末 👈 3 配置字幕翻译 语音识别问题搞定了,但目前识别出来的还是 源语言 字幕(日文、英文等),所以我们还需要解决翻译问题 还是打开任意视频,在播放界面 右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 默认是不使用 ,后续你想用的时候,自行选择「总是使用」或者「仅用于所选语言」等等 PotPlayer 内置了 Bing、DeepL、Google、Libre、Naver papago 以及 Yandex 翻译 如果你会 富强上网 ,可以直接选择 Google 翻译 ,这是目前唯一可以 免配置 直接使用的 免费 在线翻译服务了 其他的翻译服务「收费不一」且均需要自行去申请 API Key 并通过「账户设置」功能配置后才能使用 不过总体而言,阿虚不太推荐去折腾内置的这些翻译服务: DeepL、Naver Papago、Yandex 翻译就算申请到了 API,国内依然无法免富强直接使用——但你都能富强上网了,还不如直接用免费的 Google 翻译 Libre 翻译则是收费贼贵,高达 $29 每月 唯一国内还能直连使用的 Bing 翻译 ,API 需要通过 Microsoft Azure 申请,而普通用户需要绑定国际信用卡才行,有教育邮箱通过 Azure for Students 才能免信用卡及获得 200 万字符每月的免费翻译额度 对于没有富强上网能力的同学,比较推荐的是以下 3 种方案 3.1 百度翻译 百度如今给个人开发者也提供了 每月免费 100 万字符 的翻译额度,对于几个视频翻译这种需求还是完全够用的 申请百度翻译 API 的方法也不难,这里引一下阿虚之前的教程,打开百度通用翻译 API 的申请地址后点击 立即使用 : https://fanyi-api.baidu.com/product/11 登录你的百度账号后,选择 个人开发者 ,填入你的姓名、邮箱、手机号 然后会提示你进行实名认证来获取高级版服务,阿虚是推荐大家进行实名认证的(反正大家基本上在百度的其他产品早进行过实名认证了),填写完实名之后,点击网页顶部的百度翻译LOGO返回之前的界面, 再点击顶部的 管理控制台 ,点击 立即开通 服务 在新打开的窗口,选择「通用翻译」点击下一步,然后点击「开通高级版」,然后因为前面就认证了,就直接点击下一步 最后申请服务这里只需要填一个「应用名称」,其他都可以不填,点击提交申请就能开通服务了 最后回到翻译开放平台的首页,在开发者信息这一栏就能看到你的 APP ID 和 密钥 了 有了 API 之后,我们需要去给 PotPlayer 安装百度翻译插件 打开此 Github 项目,将整个项目文件都下载下来: https://github.com/fjqingyou/PotPlayer_Subtitle_Translate_Baidu 如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓): https://steampp.net/ 然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的 Extention\Subtitle\Translate 文件夹里面即可 后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了 3.2 在线 AI 大模型翻译 第二种选择,阿虚推荐白嫖此前就介绍过的硅基流动 API 来使用 AI 大模型翻译,比起百度的机器翻译,效果会更好! 目前新用户手机注册即可得 2000 万 Tokens,通过阿虚的邀请链接注册还能 再额外得 2000 万 Tokens ,就算赠送额度用完了也可以选择免费模型继续白嫖: https://cloud.siliconflow.cn/i/snHnLED8 注册好之后先暂停,我们先把第三方翻译插件装好,才方便大家看懂后续教程 还是和百度翻译一样,打开此 Github 项目,将整个项目文件都下载下来: https://github.com/Felix3322/PotPlayer_Chatgpt_Translate 如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓): https://steampp.net/ 然后还是一样的,将项目解压出来的 SubtitleTranslate - ChatGPT - Without Context.as、SubtitleTranslate - ChatGPT - Without Context.ico、SubtitleTranslate - ChatGPT.as、SubtitleTranslate - ChatGPT.ico这 4 个文件都复制到 PotPlayer 软件安装目录中的 Extention\Subtitle\Translate 文件夹里面即可 OK,现在我们打开硅基流动的「模型广场」,如果你是新注册会有2000万 token 额度,所以我们可以优先选择「可用增费」的模型 就算后期你的额度用完了也没事,我们可以换成免费模型,对于翻译场景来说,小参数的免费模型其实也是完全够用的 硅基流动目前提供,并且插件支持的模型有以下可以选择:Deepseek Deepseek 通义千问 Qwen 硅基流动 Siliconflow 百度文心一言 Ernie 月之暗面 KIMI 零一万物 插件也支持调用国外的 AI 大模型(Chatgpt、Claude等),具体可见插件 Github 官网,阿虚这里未全部列出 这里我们选个百万调用便宜一点的 Deepseek V2.5(注意选择对话模型,但不要选择推理模型) 点击模型之后,在上方点击按钮,复制模型名称 接着打开 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中ChatGPT翻译 ⇨ 点击账户设置 ⇨ 先填入刚刚复制模型名称 ⇨ 然后输入一个| 这里专门说明一下竖杠 | 符号的输入方法,很简单,同时按住 Shift+回车上面那个键就行了 接着我们点击模型的 API 文档 在弹出的 API 文档网页里面 然后把这个链接粘贴到刚刚 PotPlayer 的 API 配置处就行了 上面的 API 密钥则是在硅基流动平台左侧点击 API 密钥即可新建生成,生成后填进去即可 3.3 Ollama 本地 AI 大模型翻译 最后,如果你觉得在线翻译存在内容审核,亦或者是不想将视频数据上传到云端处理,更关注数据隐私的话,这里还有一招 方案就是借助 Ollama 搭建本地 AI 大模型服务,然后再使用 PotPlayer 来调用 不过这个方案又需要下载一系列软件+模型+插件,需要 WIN10 以上系统,对网络环境也有要求,使用起来颇为麻烦,大家可以酌情考虑是否折腾 首先打开 Ollama 的 Github 地址找到 OllamaSetup.exe 并下载(可能被隐藏了,需自己点击展开): https://github.com/ollama/ollama/releases 如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓): https://steampp.net/ 然后一来 Ollama 的安装就存在一个问题,因为这个软件默认只能装到 C 盘, 软件本体就有 4.5 GB ,加上后续 AI 模型文件, 可能会占用 C 盘 10GB 以上空间 如果你的 C 盘空间足够,那从官网下载后直接安装即可,如果不够,请参考以下安装方法 首先在你想安装的路径下 创建好一个新文件夹(比如Ollama),并把 Ollama 的安装包放在里面 。比如如图:E:\MySoftware\Ollama 然后在资源管理器的文件路径上输入 CMD,然后回车,接下来将会自动打开命令窗口 然后在 CMD 窗口输入: OllamaSetup.exe /DIR=E:\MySoftware\Ollama 具体语法为:软件安装包名称 /DIR=这里放你上面创建好的Ollama指定目录 输好命令之后回车,Ollama 就会进入安装流程,接下来点击 Install 等待安装即可——这样就能把 Ollama 安装到你指定的路径了 接着我们打开 Ollama 官网,点击左上角的 Models 选择模型进行下载: https://ollama.com/search 阿虚这里以 Qwen2.5 进行演示(阿虚测试了几个模型,感觉最好的话也是用这个,因为其他模型可能提示词不太适配,生成效果反而不好),总之你会发现 Qwen2.5 包含的模型版本非常多 这里的话,因为阿虚电脑暂时只有核显,就只装一个比较小的 1.5B 模型进行演示(如果电脑性能足够,使用7B模型效果会好很多)。我们点击右上方的复制按钮,复制主要的安装命令 然后按下键盘上的WIN+R键打开运行窗口,接着输入 CMD 打开命令提示符,然后单击鼠标右键即可粘贴我们刚刚复制的安装命令,最后英文输入法下补上冒号和你想要安装的模型大小即可 然后我们还是需要安装 PotPlayer翻译插件,一样的打开此 Github 项目,将整个项目文件都下载下来: https://github.com/yxyxyz6/PotPlayer_ollama_Translate 如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓): https://steampp.net/ 然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的 Extention\Subtitle\Translate 文件夹里面即可 后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了 找到全局变量这里,选中 wangshenzhi/gemma2-9b-chinese-chat:latest 然后按下 Ctrl+H 进行替换,将其全部替换为我们下载的模型 qwen2.5:1.5b 即可 后续就 PotPlayer 翻译引擎中选择 Ollama 就行了,不再需要其他额外设置 唯一就是使用 Ollama 本地模型翻译的话,需要 Ollama 一直在后台保持启动哈 4 资源打包下载 最后,PotPlayer 全引擎+全模型绿色整合包+文章上述提到的各种引擎、模型、插件文件单独下载地址阿虚这边都已经替大家整理好了,整合包提供了不限速下载方法 地址就不放公众号后台了,大家可以自行到储物间( 地址发布页:axutongxue.cccpan.com )获取,网站顶部就是搜索功能 写这篇文章前前后后还是折腾了很久,可能还有许多不足,有问题的话欢迎在评论区留言 总得来说,PotPlayer 实时生成字幕+翻译其实还是 比较吃电脑性能的 ,电脑配置较低的情况下,字幕生成的速度还有质量都会大打折扣——并且只支持本地视频 其实阿虚这里还有一些 不吃电脑性能、手机也可以使用、同时还是白嫖大厂服务、在线本地视频都支持 的实时翻译,这里暂且留到下篇文章阿虚再来介绍 阅读原文
跳转微信打开