三花AI 09月25日
AI 技术新进展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期 AI 领域涌现出多项新进展,包括 OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能,谷歌 Gemini Live 即将升级,谷歌 Photo 对话式 AI 修图,智谱 AutoGLM 2.0 发布,字节跳动 Seed 团队开源 36B 大语言模型,快手 Klear-Reasoner 刷新多项 8B 模型基准纪录,以及 ElevenLabs 发布 v3 Alpha API 支持多种语言和说话人。这些进展展示了 AI 技术在多个方面的应用和突破。

🔍 OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能,该功能可在 Study and Learn 模式下自动生成互动测验,帮助用户更有效地学习。

📱 谷歌 Gemini Live 即将升级,新增实时画面提示功能,并深度整合 Calendar、Keep 和 Tasks 三大核心应用,语音交互更加自然流畅。

🖼️ 谷歌 Photo 即将推出对话式 AI 修图功能,用户可通过语音或文字描述编辑图片,无需手动选择工具或调整滑块。

📱 智谱 AI 发布 AutoGLM 2.0,免费提供云手机电脑 Agent 独立运行,AI 在云端独立运行,完全不占用本地设备资源,支持 24 小时离线任务。

🤖 字节跳动 Seed 团队首次开源 36B 大语言模型,包含三个版本:Seed-OSS-36B-Base、Seed-OSS-36B-Base-woSyn 和 Seed-OSS-36B-Instruct,以 Apache 2.0 协议开放下载。

🚀 快手 Klear-Reasoner 模型刷新多项 8B 模型基准纪录,并开源了权重与完整的训练流程,展现了 AI 技术在自然语言处理方面的强大能力。

🗣️ ElevenLabs 发布 v3 Alpha API,支持超过 70 种语言和无限数量的说话人,是其迄今最具表现力的文本转语音模型。

原创 小茸茸 2025-08-21 10:53 重庆

智谱AutoGLM 2.0免费云手机电脑Agent独立运行;字节跳动Seed团队首次开源36B大语言模型;快手Klear-Reasoner:刷新多项8B模型基准纪录;ElevenLabs v3 Alpha API持70+语言和无限说话人

OpenAI 为 ChatGPT 灰度上线 FlashCards 学习卡片功能

ChatGPT 正面向部分用户灰度上线名为 FlashCards 的学习卡片功能。

该功能在 Study and Learn 模式下可自动生成互动测验,视频中[1]是 X 上一位大佬分享的演示。

谷歌 Gemini Live 即将升级:实时画面提示与三大应用深度整合

谷歌宣布将对 Gemini Live 进行重大升级,新增实时画面提示功能,并深度整合 Calendar、Keep 和 Tasks 三大核心应用,语音交互也更加自然流畅。值得一提的是,新版功能将于 8 月 28 日随 Pixel 10 系列首发上市,随后逐步向其他 Android 及 iOS 设备推送。

时间过得真快,上次用谷歌的手机还是 LG 的 Nexus 5,如今遍地 AI !完整介绍可参考官方博客[2]

谷歌Photo 对话式 AI 修图

Google Photos 即将推出一项新功能,用户可以通过简单的语音或文字描述来编辑图片,无需手动选择工具或调整滑块。

该功能同样在 Pixel 10 上首发推出,并且 Google Photos 将支持C2PA Content Credentials,这意味着用户可以在Google Photos中直接看到图片是如何被捕捉或编辑的,包括是否使用了AI技术。

完整介绍佬们同样还是看官方博客哈。

智谱 AutoGLM 2.0: 免费云手机电脑 Agent 独立运行

智谱 AI[3] 正式发布了 AutoGLM 2.0,面向所有用户免费开放,并号称这是“全球首个手机 Agent”。

新版本以“Agent + 云手机 + 云电脑”为技术底座,AI 在云端独立运行,完全不占用本地设备资源,支持 24 小时离线任务,还即将上线“定时任务”功能。

相当于给每个人配了个虚拟电脑或手机!我稍微看了下,手机型号是 SM-F900F,能直接接管操作,延迟超低,能联网和开启开发者选项,简直不敢想象大伙会开发出什么神奇玩法!

字节跳动Seed团队首次开源36B大语言模型

字节跳动旗下 Seed 团队正式发布 Seed-OSS 系列开源大语言模型。本次开源包含三个版本:Seed-OSS-36B-Base、Seed-OSS-36B-Base-woSyn(不含合成指令数据的“纯净版”基础模型)与 Seed-OSS-36B-Instruct,均以 Apache 2.0 协议开放下载。

没记错的话,这是字节 Seed 团队首次开源大语言模型,佬们可以关注一下,这是他们的 Hugging Face 主页[4]

快手 Klear-Reasoner:刷新多项 8B 模型基准纪录

快手科技发布了基于 Qwen3-8B-Base 的 Klear-Reasoner 模型,该模型在多项基准测试中刷新了 8B 模型的纪录,并开源了权重与完整的训练流程。不得不说,这次开源真是诚意满满!

ElevenLabs 发布 v3 Alpha API:支持 70+ 语言和无限说话人

ElevenLabs 正式推出专为异步场景设计的 Eleven v3 Alpha API,支持超过 70 种语言和无限数量的说话人,号称是其迄今最具表现力的文本转语音模型。

完整介绍佬们可以看官方推文[5]


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

Reference

[1] FlashCards功能演示视频: https://x.com/diegocabezas01/status/1958173175012802784

[2] Gemini Live 八月更新官方博客: https://blog.google/products/gemini/gemini-live-updates-august-2025/

[3] 智谱 AI 官网: https://autoglm.zhipuai.cn

[4] ByteDance-Seed Hugging Face 官方页面: https://huggingface.co/ByteDance-Seed

[5] ElevenLabs 官方推文: https://x.com/elevenlabsio/status/1958219938881257525

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI ChatGPT Google Gemini Google Photos 智谱 AutoGLM 字节跳动 Seed 快手 Klear-Reasoner ElevenLabs
相关文章