阿虚同学 09月20日
PotPlayer更新:无字幕视频实时翻译功能详解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

PotPlayer播放器迎来重磅更新,新增无字幕视频实时翻译功能。本文详细介绍了如何配置该功能,包括选择合适的语音识别引擎和模型,以应对不同电脑配置和网络环境。文章深入探讨了多种翻译方案,如百度翻译、在线AI大模型(硅基流动)以及本地Ollama搭建,并提供了相应的插件和配置教程。同时,作者还分享了PotPlayer的下载、引擎模型下载搬运资源,以及整合包,旨在帮助用户轻松实现视频的实时字幕生成与翻译,并对该功能的性能要求进行了说明。

🌟 **PotPlayer新增实时字幕生成功能**:最新版PotPlayer支持“生成有声字幕(实时)”,允许用户在播放过程中随意拖动进度条,软件会从当前位置开始进行字幕转写,解决了旧版本仅支持从视频开头转写的问题,提升了用户体验。

⚙️ **多样的语音识别引擎与模型选择**:文章详细介绍了如何根据用户电脑配置(如显卡驱动支持Vulkan API或NVIDIA显卡)选择合适的语音识别引擎(如whisper.cpp Vulkan、CUDA、BLAS、CPU),并根据显存大小和识别延时需求,选择不同尺寸的语音识别模型(tiny至large),提供了详细的性能对比参考。

🌍 **丰富的字幕翻译方案**:为解决识别出的源语言字幕翻译问题,文章提供了多种翻译方案:包括免费的Google翻译(需科学上网)、需申请API的百度翻译(提供国内网盘插件)、通过硅基流动API调用AI大模型(如Deepseek、Qwen等),以及利用Ollama搭建本地AI大模型服务以保障隐私。每种方案都附带了详细的配置步骤和资源获取方式。

📦 **一站式资源与整合包**:考虑到国内用户下载引擎、模型和插件可能遇到的困难,作者提供了国内网盘的下载链接,并打包了一个包含所有功能配置的绿色整合版PotPlayer(约20GB),方便用户一键获取,省去繁琐的配置过程。

💻 **性能考量与未来展望**:文章强调,PotPlayer的实时字幕生成与翻译功能对电脑性能有一定要求,配置较低的电脑可能会影响字幕生成的速度和质量。此外,作者预告了下一篇文章将介绍不吃电脑性能、手机可用且支持在线本地视频的实时翻译方案。

原创 砺心 2025-09-19 19:17 四川

依旧是那个最强播放器!

阿虚同学

读完需要

15

分钟

速读仅需 5 分钟

点击头像即可关注

最近很多粉丝反馈收不到公众号更新,解决办法:点上方头像 » 点右上角••• » 设为星标⭐

原本阿虚的理念是「能用,就没必要更新」

但最近我无意刷到一篇文章才知道,我很早之前推荐过的视频播放器 Potplayer 现在竟然已经更新了无字幕视频实时翻译功能

那这可就很值得更新一下了!

只是回过头来说实话,想要「舒服」的用上这个功能可谓一点儿不简单

花了几天时间写篇文章给大家分享一下,也顺便记录下自己的折腾过程!

文末有一键免配置整合包!不想折腾的粉丝可以直接去文末获取!

另外 PotpPlayer 仅支持 Windows 端,Mac 电脑想玩请考虑装 Windows 虚拟机,我之前出过教程👇

1

   

PotPlayer 下载

首先 PotPlayer 的版本问题上,阿虚就差点搞昏

一开始我就是简单换上了 PotPlayer 最新版,然后边测试边写教程,结果教程都写一半了,才发现好像不对劲

因为看到不少网上已有的教程里面推荐使用 Faster-Whisper-XXL 引擎,据悉是语音识别速度会比 whisper.cpp 更快。但很奇怪在我下载的版本里面却没有这个引擎

我尝试从绿色版换成官方版,又尝试了自己手动下载安装引擎……

折腾半天,最后才搞清楚了问题所在——原因出在功能细节上

网上已有的教程,普遍都是基于 2025 年 6 月 25 日这个 PotPlayer 版本,这个版本里面仅有生成有声字幕功能,而 2025 年 9 月9 日的最新版 PotPlayer 多出了一个生成有声字幕(实时)功能

看似雷同,但这两个功能其实是有本质上区别的!

1.1

  

生成有声字幕

仔细看,生成有声字幕有一个「播放开始时自动生成」的选项

所以这个功能并不是真正意义上的实时转写,而是你打开某个视频之后,在后台从视频开头进行转写

如果你的每次视频是从头看到尾,那这个功能用起来,也的确和实时生成无异

毕竟合理选择引擎+模型的话,可能 1 个小时的视频,几分钟就能完成语音转字幕

但是如果你想拉动进度条,从中间某个位置开始播放,那就需要等待几分钟转写进度到这里了,才会开始显示字幕,体验就相当差了……

1.2

  

生成有声字幕(实时)

而最新版 PotPlayer 的实时字幕生成功能,就没有了上述缺点,你可以随意拖动进度,软件都会从当前播放位置开始进行字幕转写

但目前最大的缺点就是,实时字幕生成功能并不支持 Faster-Whisper-XXL、Whisper-Faster 等「转录速度更快」的引擎

具体为啥不支持,目前未知,可能是这些引擎与实时生成功能冲突或者说官方暂时没完成适配吧……

但实时生成这个功能还属于 Beta 测试版,或许今后官方是能加上支持的,大家可以先期待一下

2

   

配置语音识别

这里的话,阿虚先以实时字幕生成为核心来介绍下新版 PotPlayer

安装好播放器之后,打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 生成有声字幕(实时) ⇨ 生成有声字幕(实时)

默认是不使用,后续你想用的时候,自行选择「始终使用」或者「如果没有字幕则使用」等等

2.1

  

转换引擎与模型的选择

然后这一步我们需要选择转换引擎以及语音识别模型,并进行下载!

转换引擎这里:

模型型号这里:

一共有 6 大类模型尺寸可以选择,其中 4 种有仅支持英语版本(其在仅英语语境下表现更佳,尤其是 tiny.en 和 base.en 模型。对于 small.en 和 medium.en 模型,这种差异不太明显)

下面有一个官方在 A100 显卡测试环境下转录英语语音测得的一个表格数据,仅供参考,实际速度会因为语言、语速和硬件等产生很大差异

模型

文件大小

仅支持英文模型

多语言模型

所需显存

相对 large 识别速度

tiny

39 M

tiny.en

tiny

约 1 GB

约 10 倍

base

74 M

base.en

base

约 1 GB

约 7 倍

small

244 M

small.en

small

约 2 GB

约 4 倍

medium

769 M

medium.en

medium

约 5 GB

约 2 倍

large

1550 M

large

约 10 GB

1 倍

turbo

809 M

turbo

约 6 GB

约 8 倍

<<左右滑动查看表格>>

此外,turbo 模型是 large-v3 的优化版本,它能提供更快的转录速度,同时准确性的下降微乎其微。电脑显存足够的话肯定优先考虑这个而不是 medium 模型

因为实时语音转录,必然是存在识别延时的,所以你并不能无脑选择越大的模型

可以看到下图,阿虚电脑上如果选择 large-v3 这个「识别效果更好的模型」,识别延时会高达 20~30 秒,对于实时翻译这个场景来说几乎属于不能用的地步

但如果舍弃精准度,把模型改为 small,可以看到识别延时一下就降低到了 2~3秒,这就完全堪用了(换用 base、tiny 还会更快),个人觉得 Small 模型的识别效果就挺哇塞的了

不过这里也是因为阿虚电脑没有显卡,是以 CPU 转换做演示,本身就要慢一些。如果你用着 5090,那转换速度肯定会快得多

所以具体选择哪个模型,只能大家根据自己的电脑去实测一下

2.2

  

模型下载

配置方法说完,紧接着问题就来了……

因为「转换引擎」和「模型文件」都位于国外服务器,不富强上网的话,国内大多数用户都会遇到下载失败

所以阿虚这里帮大家把「转换引擎」和「模型文件」都搬运到国内网盘了,最后阿虚这里还搞了一个所有功能配置完毕的绿色整合版(包含所有转换引擎和模型,整体有20GB),网速支持又想省事的粉丝可以直接下载这个

具体资源下载地址的话请看文末👈

3

   

配置字幕翻译

语音识别问题搞定了,但目前识别出来的还是源语言字幕(日文、英文等),所以我们还需要解决翻译问题

还是打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置

默认是不使用,后续你想用的时候,自行选择「总是使用」或者「仅用于所选语言」等等

PotPlayer 内置了 Bing、DeepL、Google、Libre、Naver papago 以及 Yandex 翻译

如果你会富强上网,可以直接选择 Google 翻译,这是目前唯一可以免配置直接使用的免费在线翻译服务了

其他的翻译服务「收费不一」且均需要自行去申请 API Key 并通过「账户设置」功能配置后才能使用

不过总体而言,阿虚不太推荐去折腾内置的这些翻译服务:

对于没有富强上网能力的同学,比较推荐的是以下 3 种方案

3.1

  

百度翻译

百度如今给个人开发者也提供了每月免费 100 万字符的翻译额度,对于几个视频翻译这种需求还是完全够用的

申请百度翻译 API 的方法也不难,这里引一下阿虚之前的教程,打开百度通用翻译 API 的申请地址后点击立即使用https://fanyi-api.baidu.com/product/11

登录你的百度账号后,选择个人开发者,填入你的姓名、邮箱、手机号

然后会提示你进行实名认证来获取高级版服务,阿虚是推荐大家进行实名认证的(反正大家基本上在百度的其他产品早进行过实名认证了),填写完实名之后,点击网页顶部的百度翻译LOGO返回之前的界面,

再点击顶部的管理控制台,点击立即开通服务

在新打开的窗口,选择「通用翻译」点击下一步,然后点击「开通高级版」,然后因为前面就认证了,就直接点击下一步

最后申请服务这里只需要填一个「应用名称」,其他都可以不填,点击提交申请就能开通服务了

最后回到翻译开放平台的首页,在开发者信息这一栏就能看到你的 APP ID 和密钥

有了 API 之后,我们需要去给 PotPlayer 安装百度翻译插件

打开此 Github 项目,将整个项目文件都下载下来:https://github.com/fjqingyou/PotPlayer_Subtitle_Translate_Baidu

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

3.2

  

在线 AI 大模型翻译

第二种选择,阿虚推荐白嫖此前就介绍过的硅基流动 API 来使用 AI 大模型翻译,比起百度的机器翻译,效果会更好!

目前新用户手机注册即可得 2000 万 Tokens,通过阿虚的邀请链接注册还能再额外得 2000 万 Tokens,就算赠送额度用完了也可以选择免费模型继续白嫖:https://cloud.siliconflow.cn/i/snHnLED8

注册好之后先暂停,我们先把第三方翻译插件装好,才方便大家看懂后续教程

还是和百度翻译一样,打开此 Github 项目,将整个项目文件都下载下来:https://github.com/Felix3322/PotPlayer_Chatgpt_Translate

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

然后还是一样的,将项目解压出来的 SubtitleTranslate - ChatGPT - Without Context.as、SubtitleTranslate - ChatGPT - Without Context.ico、SubtitleTranslate - ChatGPT.as、SubtitleTranslate - ChatGPT.ico这 4 个文件都复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

OK,现在我们打开硅基流动的「模型广场」,如果你是新注册会有2000万 token 额度,所以我们可以优先选择「可用增费」的模型

就算后期你的额度用完了也没事,我们可以换成免费模型,对于翻译场景来说,小参数的免费模型其实也是完全够用的

硅基流动目前提供,并且插件支持的模型有以下可以选择:Deepseek

插件也支持调用国外的 AI 大模型(Chatgpt、Claude等),具体可见插件 Github 官网,阿虚这里未全部列出

这里我们选个百万调用便宜一点的 Deepseek V2.5(注意选择对话模型,但不要选择推理模型)

点击模型之后,在上方点击按钮,复制模型名称

接着打开 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中ChatGPT翻译 ⇨ 点击账户设置 ⇨ 先填入刚刚复制模型名称 ⇨ 然后输入一个|

这里专门说明一下竖杠 | 符号的输入方法,很简单,同时按住 Shift+回车上面那个键就行了

接着我们点击模型的 API 文档

在弹出的 API 文档网页里面

然后把这个链接粘贴到刚刚 PotPlayer 的 API 配置处就行了

上面的 API 密钥则是在硅基流动平台左侧点击 API 密钥即可新建生成,生成后填进去即可

3.3

  

Ollama 本地 AI 大模型翻译

最后,如果你觉得在线翻译存在内容审核,亦或者是不想将视频数据上传到云端处理,更关注数据隐私的话,这里还有一招

方案就是借助 Ollama 搭建本地 AI 大模型服务,然后再使用 PotPlayer 来调用

不过这个方案又需要下载一系列软件+模型+插件,需要 WIN10 以上系统,对网络环境也有要求,使用起来颇为麻烦,大家可以酌情考虑是否折腾

首先打开 Ollama 的 Github 地址找到 OllamaSetup.exe 并下载(可能被隐藏了,需自己点击展开):https://github.com/ollama/ollama/releases

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

然后一来 Ollama 的安装就存在一个问题,因为这个软件默认只能装到 C 盘,软件本体就有 4.5 GB,加上后续 AI 模型文件,可能会占用 C 盘 10GB 以上空间

如果你的 C 盘空间足够,那从官网下载后直接安装即可,如果不够,请参考以下安装方法

首先在你想安装的路径下创建好一个新文件夹(比如Ollama),并把 Ollama 的安装包放在里面。比如如图:E:\MySoftware\Ollama

然后在资源管理器的文件路径上输入 CMD,然后回车,接下来将会自动打开命令窗口

然后在 CMD 窗口输入:OllamaSetup.exe /DIR=E:\MySoftware\Ollama

具体语法为:软件安装包名称 /DIR=这里放你上面创建好的Ollama指定目录

输好命令之后回车,Ollama 就会进入安装流程,接下来点击 Install 等待安装即可——这样就能把 Ollama 安装到你指定的路径了

接着我们打开 Ollama 官网,点击左上角的 Models 选择模型进行下载:https://ollama.com/search

阿虚这里以 Qwen2.5 进行演示(阿虚测试了几个模型,感觉最好的话也是用这个,因为其他模型可能提示词不太适配,生成效果反而不好),总之你会发现 Qwen2.5 包含的模型版本非常多

这里的话,因为阿虚电脑暂时只有核显,就只装一个比较小的 1.5B 模型进行演示(如果电脑性能足够,使用7B模型效果会好很多)。我们点击右上方的复制按钮,复制主要的安装命令

然后按下键盘上的WIN+R键打开运行窗口,接着输入 CMD 打开命令提示符,然后单击鼠标右键即可粘贴我们刚刚复制的安装命令,最后英文输入法下补上冒号和你想要安装的模型大小即可

然后我们还是需要安装 PotPlayer翻译插件,一样的打开此 Github 项目,将整个项目文件都下载下来:https://github.com/yxyxyz6/PotPlayer_ollama_Translate

如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/

然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可

后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了

找到全局变量这里,选中 wangshenzhi/gemma2-9b-chinese-chat:latest 然后按下 Ctrl+H 进行替换,将其全部替换为我们下载的模型 qwen2.5:1.5b 即可

后续就 PotPlayer 翻译引擎中选择 Ollama 就行了,不再需要其他额外设置

唯一就是使用 Ollama 本地模型翻译的话,需要 Ollama 一直在后台保持启动哈

4

   

资源打包下载

最后,PotPlayer 全引擎+全模型绿色整合包+文章上述提到的各种引擎、模型、插件文件单独下载地址阿虚这边都已经替大家整理好了,整合包提供了不限速下载方法

地址就不放公众号后台了,大家可以自行到储物间(地址发布页:axutongxue.cccpan.com)获取,网站顶部就是搜索功能

写这篇文章前前后后还是折腾了很久,可能还有许多不足,有问题的话欢迎在评论区留言

总得来说,PotPlayer 实时生成字幕+翻译其实还是比较吃电脑性能的,电脑配置较低的情况下,字幕生成的速度还有质量都会大打折扣——并且只支持本地视频

其实阿虚这里还有一些不吃电脑性能、手机也可以使用、同时还是白嫖大厂服务、在线本地视频都支持的实时翻译,这里暂且留到下篇文章阿虚再来介绍

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PotPlayer 实时翻译 字幕生成 AI 语音识别 视频播放器 技术教程 PotPlayer Update Real-time Translation Subtitle Generation Speech Recognition Video Player Tech Tutorial
相关文章