三花AI 10月15日 11:50
AI 行业动态速览:X平台启用Grok推荐,微软发布自研图生模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI行业动态聚焦多项重要更新。X平台即将全面启用Grok AI推荐算法,旨在提升信息流质量。微软发布了首款自研图像生成模型MAI-Image-1,并将在Copilot和Bing Image Creator中应用。Nanonets开源了OCR 2系列模型,能将图像文档转换为结构化Markdown。谷歌NotebookLM视频概览新增多款视觉风格。此外,阿里通义开源了Qwen3-VL的4B/8B版本,性能表现亮眼,甚至超越了部分竞品。OpenAI也宣布将推出更人性化的GPT版本,并计划在年底提供成人内容选项。

🚀 **AI 推荐算法升级与应用**:X平台计划下月全面启用Grok AI推荐算法,通过评估海量内容来优化用户的信息流,提升用户体验。模型权重的新算法也将一同发布,预示着个性化内容推荐的进一步发展。

🎨 **微软自研图像生成模型亮相**:微软正式发布了其首款完全自研的图像生成模型MAI-Image-1,该模型在LMArena排名第九,显示出其在AI图像生成领域的实力。未来,该模型将优先集成到Copilot和Bing Image Creator中,为用户提供更强大的图像创作能力。

📄 **OCR技术进步与开源**:Nanonets开源了OCR 2系列模型,专注于将图像文档高效地转换为结构化Markdown格式,并支持视觉问答。该系列模型基于Qwen2-VL微调,经过海量混合文档训练,能够处理多种复杂文档类型,为文档数字化和信息提取带来便利。

💡 **多模态AI模型性能提升**:阿里通义开源了Qwen3-VL的4B/8B版本,在保持低显存占用的同时,大幅提升了在STEM、VQA、OCR、视频理解及Agent任务上的表现,部分指标甚至超越了Gemini 2.5 Flash Lite和GPT-5 Nano,展现了其在多模态理解和生成方面的强大竞争力。

💬 **OpenAI 探索更人性化与多样化AI服务**:OpenAI宣布将推出更具人性化回复的GPT版本,并计划在年底开放成人内容选项,旨在提供更全面、更贴近用户需求的AI服务,同时也引发了关于AI伦理和内容监管的讨论。

原创 小茸茸 2025-10-15 10:39 重庆

X 下月全面启用 Grok AI 推荐算法;微软发布首款自研图像生成模型 MAI-Image-1;Nanonets 开源OCR 2系列模型:图像文档转结构化 Markdown;谷歌 NotebookLM 视频概览支持 Nano Banana

阿里 Qoder CLI 即将发布

阿里 Qoder 官方命令行工具 Qoder CLI 即将正式发布!佬们可以去datawhale的微信公众号预约直播。

X 平台下月全面启用 Grok AI 推荐算法

马斯克发推表示 X 平台将于下月全面切换至由 Grok驱动的AI推荐系统,一并发布的还有模型权重的新算法。每天超过1亿条内容都将由 Grok 进行评估,并推荐最可能引起用户兴趣的内容,显著提升信息流的质量。

OpenAI 发布 GPT-5 搜索 API:价格直降 60%,支持域名过滤

OpenAI 推出基于 GPT-5 的搜索模型 API,型号标识为 gpt-5-search-api。定价为每千次调用 10 美元,相比原方案降低了 60%,并支持按域名过滤结果。该功能与 Responses 接口中的网页搜索一致。我感觉还是有点贵,佬们怎么看。

微软发布首款自研图像生成模型 MAI-Image-1,LMArena 排名第九

微软 AI 正式发布其首款完全自研的图像生成模型 MAI-Image-1[1],目前在 LMArena 竞技场上排名第九。

不过目前只能在 LMArena 上使用,官方表示后续会优先面向 Copilot 和 Bing Image Creator 中提供 MAI-Image-1 模型。

Nanonets 开源 OCR 2 系列模型:图像文档转结构化 Markdown

Nanonets 发布并开源了 OCR 2 系列模型[2],包括 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。该系列模型专注于将图像文档转换为结构化 Markdown,并支持视觉问答功能。

其背后是基于 Qwen2-VL 微调而来,3B 版本在超过 300 万页的混合文档上进行训练,覆盖了论文、财报、合同、病历、税表、收据、手写及多语种材料,有需要的佬可以看看。

谷歌 NotebookLM 视频概览支持 Nano Banana

NotebookLM 视频概览功能发布更新升级[3] ,新增了六种由 Nano Banana 提供配图支持的视觉风格:Watercolor、Papercraft、Anime、Whiteboard、Retro Print 和 Heritage。

这次更新彻底告别了以往固定主体动态颜色的限制,效果提升明细。还没体验过的佬们快去试试吧!不过该功能目前仅支持 Pro 用户,谷歌官方表示未来将逐步覆盖全体用户。

阿里 Qwen3-VL 开源 4B/8B 版本

阿里通义开源了 Qwen3-VL 的 4B 和 8B 版本,显存占用更低的同时,完整保留了 Qwen3-VL 的核心功能。此外,还提供了 FP8 版本。

官方测试数据显示,在 STEM、VQA、OCR、视频理解以及 Agent 任务等多项测试中,居然超过了 Gemini 2.5 Flash Lite 和 GPT-5 Nano,有些表现甚至能媲美 Qwen2.5-VL-72B。

完整介绍佬们可以看通义的推文[4]

OpenAI 官宣:ChatGPT 即将推出 NSFW 版本

OpenAI CEO Sam Altman[5] 在推特上宣布,未来几周将推出一个新版 GPT,类似 GPT-4o,回复更加人性化,就像你的朋友那样。

更劲爆的是,12 月将推出更全面的年龄限制,允许 GPT 在验证成年身份的情况下提供涩涩内容!好家伙,第一生产力来了。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

Reference

[1] MAI-Image-1 官方公告: https://microsoft.ai/news/introducing-mai-image-1-debuting-in-the-top-10-on-lmarena/

[2] Nanonets OCR 2 系列模型官方公告: https://nanonets.com/research/nanonets-ocr-2/

[3] NotebookLM官方推文: https://x.com/NotebookLM/status/1977790565983945199

[4] 阿里Qwen3-VL开源公告: https://x.com/Alibaba_Qwen/status/1978150959621734624

[5] 在推特上宣布: https://x.com/sama/status/1978129344598827128

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI X平台 Grok AI 微软 MAI-Image-1 图像生成 Nanonets OCR Markdown 谷歌 NotebookLM 阿里 Qwen3-VL OpenAI GPT
相关文章