AI 领域动态速览：新模型发布与功能升级

三花AI 09月12日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

近期 AI 领域动态频出，谷歌发布了其最强的图像编辑模型 Gemini 2.5 Flash Image，并在多个平台开放预览。xAI 推出了限时免费体验的 Grok Code Fast 1 编程模型，以其快速的响应速度受到关注。阿里开源了基于音频驱动的视频生成模型 Wan2.2-S2V，用户可输入图像和音频生成动态视频。谷歌翻译新增了 AI 实时对话翻译和个性化语言学习功能，初期在美国、印度和墨西哥上线。Anthropic 则推出了 Claude Chrome 扩展的研究预览版，允许 Claude 在浏览器内执行操作。此外，中国国务院发布了深入实施“人工智能+”行动的意见，为人工智能发展指明了方向，预示着智能经济和智能社会建设的加速。

✨ **Gemini 2.5 Flash Image 成为图像编辑新标杆：** 谷歌发布的 Gemini 2.5 Flash Image（代号 nano-banana）预览版，在 LMArena 图像编辑竞技场上以显著优势登顶，胜率超过 85%，显示了其强大的图像编辑能力。该模型已在 Gemini App、Google AI Studio、Vertex AI 及 Gemini API 中提供，尽管定价不菲，但其卓越效果备受期待。

🚀 **xAI Grok Code Fast 1 编程模型限时免费：** xAI 推出了首款编程专用模型 Grok Code Fast 1（代号 Sonic），具备 256K 的超大上下文窗口。目前该模型在主流 AI 编程工具上提供限时免费体验，其极快的速度和有效性得到了用户亲测认可，为开发者带来了高效的编程辅助。

🎬 **阿里开源音频驱动视频生成模型 Wan2.2-S2V：** 阿里 Wan 团队开源了 Wan2.2-S2V-14B，这是一个创新的音频驱动视频生成模型。用户只需提供一张静态图像和一段音频，即可生成最高 720P 的动态视频，为内容创作提供了新的可能性，并已在 Hugging Face Space 上开放体验。

🌍 **谷歌翻译升级：AI 实时翻译与个性化语言学习：** 谷歌翻译新增了两项重要 AI 功能：支持超过 70 种语言的实时对话翻译，以及提供个性化的语言学习练习。这些功能旨在打破语言障碍，提升跨文化交流的便捷性，目前已在美国、印度及墨西哥上线。

💡 **国务院发布“人工智能+”行动意见，推动智能经济发展：** 中国国务院发布了首部关于深入实施“人工智能+”行动的政策意见，涵盖科学技术、产业发展、消费提质、民生福祉、治理能力及全球合作等六大领域。该政策明确了到 2035 年实现智能经济和智能社会的目标，预示着人工智能在中国的发展将迎来新一轮高潮。

🤖 **Anthropic 推出 Claude Chrome 扩展，提升浏览器交互能力：** Anthropic 发布了 Claude for Chrome 研究预览计划，允许 Claude 直接在浏览器内进行页面查看、按钮点击、表单填写等操作。这项邀请制扩展为 Max 计划用户提供了更深度的浏览器集成体验，并已开放候补名单申请。

原创小茸茸 2025-08-27 11:04 重庆

xAI 发布 Grok Code Fast 1 编程模型限免体验；谷歌翻译支持AI实时翻译与个性化语言学习；Anthropic 推出 Claude Chrome 扩展；国务院关于深入实施“人工智能+”行动的意见

谷歌 Gemini 2.5 Flash Image：地表最强图像编辑模型

Google 今日正式发布 Gemini 2.5 Flash Image 预览版（代号 nano-banana），现已在 Gemini App、Google AI Studio、Vertex AI 及 Gemini API 中提供。

该模型在 LMArena 图像编辑竞技场上以领先第二名 180 ELO 分的绝对优势登顶榜首。社区在两周内投出超过 500 万次投票，模型胜率超过 85%。

这模型定价为每百万输出 tokens 30 美元，单张图约 1290 tokens，折合 0.039 美元——只能说香蕉虽好，但也不便宜啊，不过效果确实非常的好啊。

xAI 发布 Grok Code Fast 1 编程模型限免体验

xAI 正式发布首款编程专用模型 Grok Code Fast 1[1]（代号 Sonic），模型具备 256K 上下文窗口，现已在主流 AI 编程工具上限时免费开放。

速度确实非常快，亲测有效，佬们可以亲自试试

阿里开源 Wan2.2-S2V：音频驱动视频生成模型

阿里 Wan 团队今日正式开源[2] Wan2.2-S2V-14B——这是一款基于音频驱动的开源视频生成模型。用户只需输入一张静态图像与一条音频，即可生成 480P（最高 720P）的动态视频。

佬们现在就可以去 Hugging Face Space[3] 上亲自体验！

谷歌翻译支持AI实时翻译与个性化语言学习

Google Translate 推出两项 AI 驱动的全新功能：支持超过 70 种语言的实时对话翻译，以及个性化的语言学习练习。

目前该功能仅在美国、印度及墨西哥上线，有条件的佬们可以试试看！完整介绍可参考官方博客[4]。

Anthropic 推出 Claude Chrome 扩展

Anthropic 发布了 Claude for Chrome 研究预览计划，向首批 1,000 名 Max 计划用户推送邀请制的 Chrome 扩展。

该扩展基于浏览器自动化技术，支持 Claude 直接在浏览器内查看页面、点击按钮、填写表单，甚至代表用户执行操作。如果佬感兴趣，也可以在 http://claude.ai/chrome 填写表单加入候补名单哦！

完整介绍可参阅 Anthropic 官方新闻[5]页面。

国务院关于深入实施“人工智能+”行动的意见

中国国务院发布了首部 “人工智能+”行动政策

涵盖六大关键领域：

• 人工智能 + 科学技术 • 人工智能 + 产业发展• 人工智能 + 消费提质 • 人工智能 + 民生福祉 • 人工智能 + 治理能力 • 人工智能 + 全球合作

政策明确了到 2035 年全面进入智能经济和智能社会的宏伟目标。

感觉风口真的要来了！这是我跑的词云图，大家可以感受下这股势头。当然，有项目需求的朋友们可以找我小茸茸唠唠~

❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

[ 打广告的太多了，现在不拉人加入 AI 日报群了，有需求/问题的朋友们可以直接加我交流嗷 ]

Reference

[1] Grok Code Fast 1 官方文档: https://docs.x.ai/docs/models/grok-code-fast-1

[2] Wan2.2 GitHub 仓库: https://github.com/Wan-Video/Wan2.2

[3] Wan2.2-S2V 演示空间: https://huggingface.co/spaces/Wan-AI/Wan2.2-S2V

[4] Google Translate 官方博客: https://blog.google/products/translate/language-learning-live-translate/

[5] Claude for Chrome 官方公告: https://www.anthropic.com/news/claude-for-chrome

阅读原文

跳转微信打开

谷歌 Gemini 2.5 Flash Image：地表最强图像编辑模型

xAI 发布 Grok Code Fast 1 编程模型限免体验

阿里开源 Wan2.2-S2V：音频驱动视频生成模型

谷歌翻译支持AI实时翻译与个性化语言学习

Anthropic 推出 Claude Chrome 扩展

国务院关于深入实施“人工智能+”行动的意见

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签