博通携手AI公司CAMB.AI,正联合开发一款创新的AI芯片组,旨在实现设备端的实时音频翻译。此举意在将翻译、配音和口述影像等复杂任务从云端迁移至电视、智能音箱等本地设备SoC,摆脱对网络连接的依赖。该技术方案的核心优势在于加强隐私保护,用户音频数据将保留在本地,避免泄露。同时,它支持超过150种语言,通过本地处理实现超低延迟的实时翻译和配音,并显著降低对网络带宽的需求。一段演示视频展示了其在电影片段中实时生成多语言场景描述和文字翻译的能力,尤其对视障人士获取视频信息具有重要意义。该技术虽处测试阶段,但未来有望颠覆智能电视、机顶盒及物联网设备的多语言交互体验。
🚀 **端侧实时音频翻译技术**: 博通与CAMB.AI合作,致力于开发一种能在设备本地处理实时音频翻译的AI芯片组。这意味着翻译、配音和口述影像等功能将不再依赖云端服务器,而是直接在智能电视、智能音箱等设备上完成,从而实现更快的响应速度和更好的用户体验。
🔒 **隐私与效率的双重提升**: 该技术方案的最大亮点之一是显著增强了用户隐私保护。音频数据无需上传至云端,大大降低了数据泄露的风险。同时,通过本地化处理,该芯片组能够实现超低延迟,确保翻译和配音的实时性,并且有效减少对无线网络带宽的占用,尤其在网络条件不佳时优势明显。
🌐 **广泛的语言支持与应用前景**: 新型AI芯片组预计将支持超过150种语言,为全球用户提供无缝的多语言交流体验。其口述影像功能尤其对视力障碍人士意义重大,能极大地提升他们观看视频内容的可访问性。虽然目前尚处于测试阶段,但一旦成熟,有望为智能电视、机顶盒及各类物联网设备带来颠覆性的多语言交互体验。
IT之家 11 月 11 日消息,科技媒体 engadget 今天(11 月 11 日)发布博文,报道称博通(Broadcom)携手 AI 公司 CAMB.AI,将合作开发一款新型 AI 芯片组,能够在设备端直接处理实时音频翻译。
这项合作旨在将翻译、配音和口述影像等复杂任务从云端转移至本地设备(如电视、智能音箱等)的 SoC(片上系统)中完成,从而摆脱对网络连接的依赖。
IT之家注:口述影像(Audio Description)是一项专为视力障碍人士提供的辅助功能。它通过语音解说,描述视频画面中正在发生的人物动作、场景变化、屏幕文字等视觉信息,帮助视力障碍人士更好地理解内容。
官方表示该技术方案具备两大核心优势:首先是隐私保护,用户的音频数据无需上传至云端服务器,有效避免了潜在的隐私泄露风险。其次是性能表现,该芯片将支持超 150 种语言,本地处理可实现超低延迟,确保翻译和配音的实时性,同时大幅减少对无线网络带宽的占用。
为展示技术能力,两家公司发布了一段基于电影《美食总动员》片段的演示视频。视频中,AI 系统能够用多种语言实时生成并播报场景描述,同时在屏幕上显示文字翻译。
这项口述影像功能对于视力障碍用户极具价值,能极大地提升他们获取视频信息的可访问性。该技术所采用的语音模型已被 NASCAR、康卡斯特(Comcast)等知名机构使用。
该芯片组技术目前仍处于测试阶段,距离正式商用于消费电子产品还需一段时间。不过,这项技术一旦成熟,有望为智能电视、机顶盒及各类物联网设备带来颠覆性的多语言交互体验。