近期 AI 领域涌现出多项新进展,包括 OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能,谷歌 Gemini Live 即将升级,谷歌 Photo 对话式 AI 修图,智谱 AutoGLM 2.0 发布,字节跳动 Seed 团队开源 36B 大语言模型,快手 Klear-Reasoner 刷新多项 8B 模型基准纪录,以及 ElevenLabs 发布 v3 Alpha API 支持多种语言和说话人。这些进展展示了 AI 技术在多个方面的应用和突破。
🔍 OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能,该功能可在 Study and Learn 模式下自动生成互动测验,帮助用户更有效地学习。
📱 谷歌 Gemini Live 即将升级,新增实时画面提示功能,并深度整合 Calendar、Keep 和 Tasks 三大核心应用,语音交互更加自然流畅。
🖼️ 谷歌 Photo 即将推出对话式 AI 修图功能,用户可通过语音或文字描述编辑图片,无需手动选择工具或调整滑块。
📱 智谱 AI 发布 AutoGLM 2.0,免费提供云手机电脑 Agent 独立运行,AI 在云端独立运行,完全不占用本地设备资源,支持 24 小时离线任务。
🤖 字节跳动 Seed 团队首次开源 36B 大语言模型,包含三个版本:Seed-OSS-36B-Base、Seed-OSS-36B-Base-woSyn 和 Seed-OSS-36B-Instruct,以 Apache 2.0 协议开放下载。
🚀 快手 Klear-Reasoner 模型刷新多项 8B 模型基准纪录,并开源了权重与完整的训练流程,展现了 AI 技术在自然语言处理方面的强大能力。
🗣️ ElevenLabs 发布 v3 Alpha API,支持超过 70 种语言和无限数量的说话人,是其迄今最具表现力的文本转语音模型。
原创 小茸茸 2025-08-21 10:53 重庆
智谱AutoGLM 2.0免费云手机电脑Agent独立运行;字节跳动Seed团队首次开源36B大语言模型;快手Klear-Reasoner:刷新多项8B模型基准纪录;ElevenLabs v3 Alpha API持70+语言和无限说话人

OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能
ChatGPT 正面向部分用户灰度上线名为 FlashCards 的学习卡片功能。该功能在 Study and Learn 模式下可自动生成互动测验,视频中[1]是 X 上一位大佬分享的演示。谷歌 Gemini Live 即将升级:实时画面提示与三大应用深度整合
谷歌宣布将对 Gemini Live 进行重大升级,新增实时画面提示功能,并深度整合 Calendar、Keep 和 Tasks 三大核心应用,语音交互也更加自然流畅。值得一提的是,新版功能将于 8 月 28 日随 Pixel 10 系列首发上市,随后逐步向其他 Android 及 iOS 设备推送。时间过得真快,上次用谷歌的手机还是 LG 的 Nexus 5,如今遍地 AI !完整介绍可参考官方博客[2]。谷歌Photo 对话式 AI 修图
Google Photos 即将推出一项新功能,用户可以通过简单的语音或文字描述来编辑图片,无需手动选择工具或调整滑块。该功能同样在 Pixel 10 上首发推出,并且 Google Photos 将支持C2PA Content Credentials,这意味着用户可以在Google Photos中直接看到图片是如何被捕捉或编辑的,包括是否使用了AI技术。完整介绍佬们同样还是看官方博客哈。智谱 AutoGLM 2.0: 免费云手机电脑 Agent 独立运行
智谱 AI[3] 正式发布了 AutoGLM 2.0,面向所有用户免费开放,并号称这是“全球首个手机 Agent”。新版本以“Agent + 云手机 + 云电脑”为技术底座,AI 在云端独立运行,完全不占用本地设备资源,支持 24 小时离线任务,还即将上线“定时任务”功能。相当于给每个人配了个虚拟电脑或手机!我稍微看了下,手机型号是 SM-F900F,能直接接管操作,延迟超低,能联网和开启开发者选项,简直不敢想象大伙会开发出什么神奇玩法!字节跳动Seed团队首次开源36B大语言模型
字节跳动旗下 Seed 团队正式发布 Seed-OSS 系列开源大语言模型。本次开源包含三个版本:Seed-OSS-36B-Base、Seed-OSS-36B-Base-woSyn(不含合成指令数据的“纯净版”基础模型)与 Seed-OSS-36B-Instruct,均以 Apache 2.0 协议开放下载。没记错的话,这是字节 Seed 团队首次开源大语言模型,佬们可以关注一下,这是他们的 Hugging Face 主页[4],快手 Klear-Reasoner:刷新多项 8B 模型基准纪录
快手科技发布了基于 Qwen3-8B-Base 的 Klear-Reasoner 模型,该模型在多项基准测试中刷新了 8B 模型的纪录,并开源了权重与完整的训练流程。不得不说,这次开源真是诚意满满!ElevenLabs 发布 v3 Alpha API:支持 70+ 语言和无限说话人
ElevenLabs 正式推出专为异步场景设计的 Eleven v3 Alpha API,支持超过 70 种语言和无限数量的说话人,号称是其迄今最具表现力的文本转语音模型。完整介绍佬们可以看官方推文[5]
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1] FlashCards功能演示视频: https://x.com/diegocabezas01/status/1958173175012802784[2] Gemini Live 八月更新官方博客: https://blog.google/products/gemini/gemini-live-updates-august-2025/[3] 智谱 AI 官网: https://autoglm.zhipuai.cn[4] ByteDance-Seed Hugging Face 官方页面: https://huggingface.co/ByteDance-Seed[5] ElevenLabs 官方推文: https://x.com/elevenlabsio/status/1958219938881257525阅读原文
跳转微信打开