三花AI 09月12日
AI 领域一周动态概览
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周AI领域动态精彩纷呈。谷歌NotebookLM的视频概览新增80种语言支持,并优化了音频生成长度选择,极大地增强了多语言内容处理能力。微软开源了VibeVoice-1.5B,这是一个能生成长达90分钟、支持多说话人切换的TTS模型,尤其适用于长篇音频制作。Genspark推出了AI Designer智能体,能够根据一条提示生成品牌标志到完整视觉系统的全套设计方案。此外,阿里通义万相团队预告了Wan 2.2-S2V模型,有望实现视频与音频的同步生成。微信也在测试对话式AI新闻播报功能,采用双人AI主播对话形式,使新闻播报更具交流感。

📈 **多语言支持与内容生成能力提升**:谷歌NotebookLM的Video Overviews现已支持80种语言,并提供了音频生成长度选择,极大地扩展了其在多语言内容处理上的应用范围,为用户提供了更灵活的内容消费体验。

🎤 **长篇幅多说话人TTS模型开源**:微软发布的VibeVoice-1.5B文本转语音框架,能够生成长达90分钟的连续语音,并支持4个不同说话人切换,为播客、有声书等长篇音频内容的制作提供了强大的技术支持。

🎨 **AI驱动的全面视觉设计解决方案**:Genspark推出的AI Designer智能体,能够仅凭一条提示,便为用户生成从品牌标志到完整的视觉系统(包括店铺装修、包装、网站界面等)的全套设计方案,革新了设计流程。

🎬 **视频与音频同步生成技术探索**:阿里通义万相团队预告的新模型Wan 2.2-S2V,预示着AI在视频内容生成领域将进一步深化,有望实现视频与音频的无缝同步生成,提升内容创作的整体质量和效率。

💬 **对话式AI新闻播报新模式**:微信测试的“听快讯”功能,采用双人AI主播对话形式播报新闻,摆脱了传统单调的播报模式,以更自然、更具交流感的方式呈现新闻内容,为用户带来全新的信息获取体验。

原创 小茸茸 2025-08-26 11:04 重庆

谷歌 NotebookLM 视频概览新增多语言支持;微软开源 VibeVoice-1.5B:超长多说话人 TTS 模型;Genspark 推出AI Designer;阿里 Wan 2.2-S2V 模型预告:视频音频同步生成

谷歌 NotebookLM 视频概览新增多语言支持

NotebookLM[1] 的 Video Overviews 现已支持 80 种语言[2](包括简体中文),大幅提升了多语言内容处理能力。

同时,Audio Overviews 功能同步升级,新增生成长度选择功能,用户可在「短版/默认版」之间自由切换。

这个 Video Overviews 功能确实非常实用,强烈推荐佬们都试试!它生成的 PPT 采用演讲优先、内容辅助的设计理念,与市面上常见的将内容堆砌在页面中的 PPT 完全不一样。

微软开源 VibeVoice-1.5B:超长多说话人 TTS 模型

微软开源的 VibeVoice-1.5B[3] 文本转语音框架可生成长达 90 分钟的连续语音,并支持 4 个不同说话人切换,特别适合播客等长篇音频内容制作。

虽然支持中文生成,但语音带者'大佐味',听起来还挺有趣,有点像外国人口音。

Genspark 推出AI Designer

Genspark 最新推出的AI Designer[4] 智能体,定位为'AI 员工',仅需一条提示就能为用户生成从品牌标志到完整视觉系统的全套设计方案。

图中演示了一个咖啡品牌案例,所有设计内容——包括 Logo、店铺装修、打印物料、产品包装、网站和 APP 界面、广告及社媒海报——全部由 AI 生成。

阿里 Wan 2.2-S2V 模型预告:视频音频同步生成

阿里通义万相团队[5]在 X 上发布预告,即将推出新模型 Wan 2.2-S2V。

该模型似乎不仅能生成视频,还能一并生成音频(源推引用了一条带唱歌音频的 AI 视频)。

微信测试对话式 AI 新闻播报

微信正在「快讯」页面灰度测试「听快讯」功能,不是传统单音播报模式,而是采用双人 AI 主播对话形式,将新闻以更自然、更具交流感的方式讲述出来。

目前该功能仍处于测试阶段,佬们可以在微信搜索「快讯」,进入后点击右上角「听快讯」体验,如果没看到这个选项,说明还没灰度到你哦!


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

Reference

[1] NotebookLM 官方推文: https://x.com/NotebookLM/status/1960031496536047742

[2] NotebookLM 支持语言完整列表: http://bit.ly/478UdBB

[3] 微软 VibeVoice 官网: https://microsoft.github.io/VibeVoice/

[4] Genspark AI Designer 官网: https://www.genspark.ai/ai_designer

[5] 阿里通义万相官方X账号: https://x.com/Alibaba_Wan/status/1960012297059057935

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI NotebookLM VibeVoice Genspark 通义万相 微信 文本转语音 TTS AI设计 内容生成 多语言 人工智能
相关文章