这款新推出的移动应用解决了用户在观看无字幕影片或直播时的痛点。它能够监听系统全局音频或特定APP的音频,并在屏幕上实时显示原文转写的字幕。虽然目前受技术限制,尚无法实现近实时翻译,但后续可通过断句后调用翻译模型实现。该应用采用ASR模型进行语音转写,再结合传统翻译模型或AI模型进行翻译。目前仍处于Demo阶段,建议下载3GB的AI模型以获得最准确的翻译效果,且内存占用控制在4GB以内。模型暂存Google Cloud,后续将迁移。
🎙️ **实时语音转写,打破无字幕观影障碍:** 该应用的核心功能在于实时监听移动设备上的音频流,无论是全局系统声音还是特定应用程序(如直播、视频播放器)的声音,都能捕捉并将其转换为文本字幕。这解决了许多用户在观看没有内置字幕内容时遇到的理解困难,极大地提升了观影和观看直播的体验。
💡 **原文优先,为后续翻译奠定基础:** 考虑到技术和性能限制,目前该应用主要实现的是实时原文转写,而非实时翻译。这种策略 ensures that the core transcription function is robust and efficient. 用户可以在字幕生成后,再进行后续的翻译处理,为更准确的翻译提供了原始素材,满足了不同用户的需求。
⚙️ **先进的模型技术与优化:** 应用采用了ASR(自动语音识别)模型来处理语音到文本的转换,并结合了传统翻译模型或AI模型进行后续的翻译工作。为了追求最高的翻译准确性,推荐用户下载一个约3GB的AI模型,该模型在保证性能的同时,内存占用控制在4GB以内,确保了良好的用户体验。
🌐 **Demo阶段的开放式体验与反馈:** 目前该应用仍处于Demo(演示)阶段,开发者积极邀请用户进行体验并提供宝贵的意见和建议。这表明了开发者致力于持续改进产品,使其更符合用户需求,并积极听取社区反馈,以优化功能和性能。
大概在几年前,经常深夜孤独寂寞看片的人都知道,很多影片没有字幕的难受~
虽然目前已经很多工具软件可以在 PC 端可以实现近实时生成字幕,但是在移动端却很少见,由于某些隐私因素大家可能不想上传云端处理(其实是我穷用不起在线 api ),于是这块语音转字幕 APP 出现啦!它可以监听系统全局音频或者监听某一款 APP ,你在观看直播、或者看无字幕视频都能用上。字幕会在系统最上层实时显示
因为技术壁垒/性能问题,目前没法近实时翻译,只能实时生成原文,断句后翻译。
大概的技术方案是:ASR 模型转写文字-->文字喂给传统翻译模型 or ai 模型通过提示词翻译
目前这款 APP 还是 demo 阶段,需要大家体验提出一下意见,想要翻译最准确,还是得下载里面最大的 ai 模型哦~3 个 G ,但是内存占用不会很大,在 4 个 G 以内
当前为体验阶段,模型放在谷歌云里面的,后期会迁移
下载地址: https://www.pgyer.com/shishiyuyinzhuanxie