AI大模型工场 10月17日 19:37
国内大模型发展动态与AI芯片竞争观察
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本月国内大模型领域动作频频,Sora 2发布引发视频生成新一轮想象,而国内厂商如生数科技Vidu、快手可灵已在长视频、角色一致性及实用性上展现实力,竞争焦点转向时长、一致性和成本。AI芯片领域,受海关严查影响,英伟达高端芯片遇冷,国产芯加速替代,华为昇腾、寒武纪、壁仞等加速布局,DeepSeek V3.2的国产化训练及优化成为关键样本。OpenAI的资本运作则显示其构建“AI帝国”的野心,但AI赛道的资本循环与互联网泡沫时期有相似之处,关键在于抢占未来计算权。各科技巨头如阿里、字节、百度、腾讯、京东等在模型升级、多模态、AI应用落地等方面持续发力,国内AI生态正朝着全栈体系的可持续建设迈进。

🚀 **视频生成技术竞争升级,国内厂商展现差异化优势:** OpenAI发布Sora 2,原生音画同步和电影化运镜能力备受瞩目。国内厂商如生数科技Vidu Q2侧重“生成演技”和主体一致性,并已实现可观的商业化收入;快手自研的可灵模型则聚焦短视频创作者的实际需求,通过集成到“快影”APP实现快速落地。国内厂商的竞争点正转向更长的视频时长、角色和场景的一致性,以及更低的成本,体现了基础技术突破与生态融合并行的发展路线。

💡 **AI芯片国产化加速,生态协同成为关键:** 受英伟达高端芯片进口受限影响,国内AI芯片厂商迎来了加速替代的机会。华为昇腾的出货量上升,百度、商汤等进行兼容性测试。寒武纪和壁仞正加快中高端GPU布局,但训练端短期仍依赖进口。DeepSeek V3.2模型在国产GPU上进行混合训练,并在推理端针对国产架构深度优化,成为国产化算力验证的关键样本。政策支持和产业界对算力体系稳定性的关注,推动了从单一硬件替代到全栈体系建设的转变。

💰 **OpenAI构建“AI帝国”引发资本关注,AI赛道资本循环引人深思:** OpenAI密集进行资本运作,包括获得巨额投资、入股AMD、与甲骨文和博通合作,旨在掌握“算力主权”。这一系列动作与上世纪末互联网泡沫时期的资本扩张逻辑有相似之处,即“资本推估值、估值再推扩张”。然而,AI的底层逻辑在于抢占未来的计算权,是智能社会的基础设施。尽管存在芯片研发落地难度、能耗瓶颈等风险,但AI热潮有望在泡沫破裂后留下真正的工业革命基础。

📈 **国内科技巨头全面发力AI,模型、应用与基础设施齐头并进:** 阿里、字节、百度、腾讯、京东等公司在9月份集中发布了多项AI领域的最新进展。阿里通义大模型家族全面升级,并提出“超级人工智能”愿景;字节跳动豆包大模型在用户规模上登顶;百度文心大模型X1.1升级,并拓展自动驾驶出海;腾讯混元模型在多模态生成和3D生成领域取得突破;京东则发布了AI全景图和JoyAI大模型,并深化在零售、健康等产业的应用。各家都在加速模型研发、多模态能力、AI Agent以及AI基础设施的建设,推动AI技术在各行各业的落地应用。

原创 参商 西梅汁 2025-10-17 16:37 北京

大模型工场榜单

作者参商 西梅汁

编辑|星奈

媒体|AI大模型工场

国内大模型发展趋势|9月份解读

Sora2王者归来,国产视频生成不甘示弱?

Sora 2 的回归,重新点燃了视频生成的想象力。

OpenAI 正式发布 Sora 2,同步上线 iOS 应用和 API 服务。与初代 Sora 不同,这一版本不再只是会动的默片,它首次实现原生音画同步,支持多语言对白、环境音效与画面动作精准对齐;镜头语言也更电影化,能完成推拉摇移等复杂运镜;更重要的是,角色在多镜头中保持外观一致,场景切换具备叙事连贯性。

从物理一致性、角色行为逻辑到镜头语言的可控性,Sora 2 更像是用生成的方式“建世界”。但就在这场世界级炫技之后,国内厂商早已不是旁观者。

而生数科技作为国内首个长时长视频大模型,今年节奏拉得算比较快的,在 Sora 2 发布前一个月,就已经推出 Vidu Q2。这款模型主打“生成演技”:能精准控制人物的微表情、眼神变化和肢体语言,甚至实现“同一个角色出现在不同场景”的主体一致性能力。其实早在 2024 年,Vidu 就已全球上线,覆盖 200 多个国家,年化收入突破 2000 万美元。与 OpenAI 的技术路线不同,生数科技的 Vidu 更强调稳定性与实用性。

而另一条战线上,快手自研模型可灵自2024年6月上线以来,已迭代至 2.5 版本,支持 1080p、最长 2 分钟视频生成,并深度集成进“快影”APP,让数百万短视频创作者能直接调用 AI 生视频功能。不同于纯技术公司,快手的优势在于,它知道用户到底想要什么,不是炫技的长镜头,而是能立刻用在带货、剧情、混剪里的可用素材。对平台来说,这是更稳妥的落地方式:既能积累生成数据,又能直接带来创收。

从行业层面看,国内厂商的竞争点正在转向时长、一致性和成本。不同路线的背后,反映出国产视频生成技术的一种现实分工:有人在做基础突破,有人在做生态融合。这种多线演化,也让国内视频生成的竞争格局更具弹性。

某种意义上,Sora 2 提供了一个新的参照,但国产厂商也会在另一条路径上跑出自己的速度。

全球AI芯片竞争白热化,国产芯加速替代

最近,AI 芯片的风向已在悄然转变。9月开始,英伟达在中国的高端芯片几乎全线“遇冷”。海关开始严查英伟达的 H20、RTX Pro 6000D 芯片进口,监管层也传出让平台暂停订购国内英伟达型号。

国产芯厂商的节奏明显加快。华为昇腾 910B、910C 的出货量在上升,多家云厂商已在推理任务上批量部署;百度、商汤等公司正在做兼容性测试,用以评估迁移成本。寒武纪和壁仞都在加快中高端 GPU 的布局,但更多精力放在推理端的落地和生态完善上,距离真正大规模替代训练卡还有一段距离。训练端短期仍然依赖进口芯,但部分企业已开始尝试中等规模模型的国产化训练。

值得注意的是,DeepSeek V3.2的出现,正在成为这轮算力国产化验证的关键样本。这款模型在训练阶段已经尝试采用国产GPU进行混合并行训练,并在推理端针对昇腾、寒武纪、海光等国产架构做了深度优化,部分场景性能逼近A100。同时,DeepSeek还带动了一批国产化优化框架的形成,从编译器到分布式调度层,国产AI软硬件的协同正在被加速打通。

政策层面也在提供支撑。算力中心补贴、软件栈扶持、开源框架的国产优化,这些信号都在收敛成一条主线,从单一硬件替代,转向全栈体系的可持续建设。产业界关注的不再只是“芯片能跑多快”,而是“能否稳定融入现有算力体系”。

市场的反馈同样在变化。腾讯云在9月的全球数字生态大会上明确表示,其AI能力已全面适配主流国产芯片,并通过异构计算框架实现灵活调度 。阿里则更进一步,不仅在云栖大会上升级全栈AI体系以强化对国产芯片的支持 ,还被曝正测试一款面向AI推理任务的新自研芯片,该芯片采用国内代工,且兼容英伟达生态,意在实现“平滑替代”。字节虽未高调官宣,但随着其大模型调用量和视频生成负载激增,内部已启动多款国产芯片的兼容性验证,为后续规模化部署铺路 。

这背后,是大厂们在算力安全与成本控制双重压力下的集体转向,国产芯不再是备胎,而是主航道上的关键支点。

AI的资本游戏:OpenAI构建“AI帝国”

最近,OpenAI 的资本与技术动作密集。先是从英伟达拿下 1000 亿美元投资,接着入股 AMD 约 10%,随后与甲骨文签订云计算长期合作协议,而甲骨文自己也宣布将斥资 4000 亿美元向英伟达采购芯片。与此同时,OpenAI 又与博通达成战略合作,计划在 2026 年推出自研数据中心芯片,并部署高达 10 吉瓦的算力集群。这个规模,几乎相当于一个亚马逊云区域的总算力。

表面上看,像是一场资本狂欢,但其实每一笔合作都有明确的算计。英伟达的投资意味着绑定供货优先权;AMD 的入股让 OpenAI 多了一个供应链对冲;甲骨文提供的是云计算基础设施,帮助分担算力部署压力;而与博通的合作,则是 OpenAI 迈向“算力主权”的关键一步,只有掌握自研芯片,才能摆脱对英伟达的长期依赖。

这种资金、技术与战略的交织,很容易让人想起上世纪末的互联网泡沫。那时,思科、软银、亚洲电信等公司用“资本推估值、估值再推扩张”的方式,构筑了一个自我强化的增长神话,资金流进公司,估值暴涨,再用高估值换来更多融资与并购,直到泡沫破裂。如今AI赛道的资本循环,似乎也在复现同样的逻辑,只不过这一次的故事换成了算力、模型与数据中心。

然而,与当年的虚拟流量经济不同,AI 的底层逻辑并非空中楼阁。OpenAI、英伟达、AMD、博通、甲骨文这些企业的行为,本质上是在抢占未来的计算权,谁掌握算力,谁就掌握智能社会的基础设施。

当然,风险依然存在。芯片研发的落地难度、数据中心的能耗瓶颈、资本投入的可持续性,每一项都可能成为引爆点。任何一个环节的延迟,都可能让“革命”演变为“泡沫”。但正如历史一再证明的那样,泡沫并不一定是坏事。互联网泡沫之后,留下的是光纤网络、宽带普及和全球化的数字基础设施。

AI 热潮或许同样如此,它既是一场豪赌,也是一场必然。泡沫终会破裂,但破裂之后,真正的工业革命或许才刚刚开始。

图片

国内大模型发展趋势|9月份解读

阿里

9月,阿里巴巴在AI领域涵盖基础模型、多模态、生成式视频、语音、行业应用、安全生态、基础设施等全栈布局。通义大模型家族全面升级,开源战略持续深化,AI基础设施投入空前,并首次提出“超级人工智能(ASI)”愿景,彰显其在全球AI竞争中的引领地位。

9月25日,企业级AI智能体平台“瓴羊AgentOne”发布企业级AI智能体服务平台,支持智能体全生命周期管理,已上线20余种企业级Agent,覆盖客服、营销、分析等场景。

同时,受AI战略与云栖大会利好刺激,阿里巴巴港股单日涨幅超9%,市值激增近3000亿港元。

9月24日,在 2025云栖大会上,阿里发布多项重磅AI技术。

Qwen3-Max旗舰大模型总参数超万亿,性能超越GPT-5、Claude Opus 4,在多项国际评测中名列前茅,尤其编程与Agent工具调用能力突出。

Qwen3-Omni全模态大模型支持文本、图像、语音、视频等多模态输入输出,在36项音频及音视频基准测试中获32项SOTA。

Qwen3-VL视觉理解模型:开源,视觉智能体与视觉编程能力强大,支持手机/电脑操作,视频理解时长扩展至2小时。

通义万相Wan2.5-preview系列:涵盖文生视频、图生视频、文生图和图像编辑,首次实现音画同步视频生成,支持1080P 24fps高清视频。

通义百聆语音大模型包括Fun-ASR语音识别和Fun-CosyVoice语音合成,覆盖客服、直播、有声书等场景。

AI基础设施升级:发布新一代磐久128超节点AI服务器、HPN 8.0高性能网络,算力与网络性能大幅提升。

与英伟达Physical AI合作:阿里云PAI平台集成英伟达Physical AI软件栈,推动具身智能、辅助驾驶等应用落地。

夸克发布AI创作平台“造点”:支持音画同步视频生成,集成通义万相Wan2.5。

阿里云定位升级为“全栈人工智能服务商”,宣布三年3800亿元AI基础设施建设计划,并计划追加更大投入。

9月19日,阿里云通义万相团队开源全新动作生成模型Wan2.2-Animate,支持“动作模仿”和“角色扮演”两种模式,可将静态照片角色赋予视频中的动作和表情,或替换视频主角。该模型大幅提升人物一致性和视频生成质量,应用于短视频创作、动漫制作等领域。

9月18日,据阿里云公众号消息,近日,通义首个深度研究Agent模型DeepResearch正式开源。该模型参数仅30B(激活3B),在多个权威评测集上取得SOTA成绩。目前,通义DeepResearch的模型、框架和方案均已全面开源,用户可在Github、Hugging Face和魔搭社区下载模型和代码。

9月9日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告,报告显示,2025年上半年,中国AI云市场规模达223亿元,阿里云占比35.8%位列第一,市场份额高于2到4名的总和,凭“AI全栈”继续引领市场发展。报告认为,生成式AI(GenAI)带来AI云市场的爆发,2025年预计增长148%,到2030年将达1930亿元规模。

9月2日,阿里通义实验室宣布推出新一代智能体开发框架——AgentScope 1.0。据介绍,AgentScope 1.0是一款以开发者为核心,专注于多智能体开发的开源框架。它的核心目标是解决智能体在构建、运行和管理中的难题,提供一套覆盖“开发、部署、监控”全生命周期的生产级解决方案,让智能体应用的开发更简单、运行更安全、监控更透明。

字节跳动

9月30日,火山引擎正式发布豆包大模型1.6-vision,这是豆包大模型家族首个具备工具调用能力的视觉深度思考模型,拥有更强的通用多模态理解和推理能力,并支持Responses API,以更高性价比更好满定客户在视觉理解精准度上的高阶需求。对比上一版视觉理解模型Doubao-1.5-thinking-vision-pro,综合成本降低约50%。

9月16日,QuestMobile最新发布的2025年8月数据显示,豆包月活跃用户规模超越DeepSeek,登顶中国原生AI App月活榜首。 2025年8月,豆包月活跃用户规模达15742万,环比增长6.6%,从第二名升至第一名。 曾居首位的DeepSeek,8月用户规模虽仍处亿级,但因-4.0%的环比增速,排名下滑1位。 其他选手表现各异,元宝以22.4%的高环比增速,稳坐第三,月活规模处于1000万-1亿量级。

9月9日,豆包图像创作模型Seedream 4.0发布,支持4K多模态生图,首次实现文本、图像组合输入,支持多图融合、参考生图、组合生图、图像编辑等核心能力,主体一致性大幅增强,已登陆豆包App,个人用户可免费使用。

百度

9月百度AI动作密集,涵盖大模型升级(文心X1.1)、AI能力开放(OCR、语音、图片鉴伪)、自动驾驶出海(迪拜001牌照)、学术与产业生态(松果基金、AICC大会)、智能汽车(小度想想2.0)等。

9月27日,第七届世界新能源汽车大会上,百度地图发布小度想想 2.0 出行智能体。该智能体深度融合端到端语音语言大模型,支持多智能体协作,可处理复杂出行场景需求,依托文心大模型 X1.1 和百度地图时空数据优势。

9月24日,萝卜快跑获得迪拜首张自动驾驶测试牌照。百度旗下自动驾驶出行服务 “萝卜快跑” 在迪拜世界自动驾驶交通大会上亮相,成为大会唯一试乘车队,并计划部署超 1000 台全无人驾驶汽车。

9月25日,全球首个中文音视频一体化视频生成模型百度蒸汽机升级,发布通用AI长视频生成功能。该功能支持用户生成无限长度的AI视频,并带来“流式无限生成”的全新体验。此次升级在行业尚属首次,突破了此前AI仅能生成5秒、10秒短视频,或依赖首尾帧控制续写时长的局限,采用流式生成技术实现了在通用长视频上的“无限”生成能力。

9月22日,百度智能云千帆正式推出全新视觉理解模Qianfan-VL,并全面开源。该系列模型包含3B、8B和70B三个尺寸版本,是面向企业级多模态应用场景,进行了深度优化的视觉理解大模型。即日起至10月10日,用户可在百度智能云千帆平台免费体验8B、70B模型。Qianfan-VL不仅具备出色的基础通用能力,还针对产业落地中的高频需求,如OCR和教育垂直场景做了专项强化,使其在实际应用中表现更加卓越。Qianfan-VL系列模型在百度自研昆仑芯 P800上完成全流程计算任务。

9月9日,百度发布文心大模型 X1.1,事实性提升 34.8%,指令遵循提升 12.5%,智能体能力提升 9.6%,支持联网搜索和复杂任务处理,并上线文心一言官网、文小言 APP 及百度智能云千帆平台。同时开源ERNIE-4.5-21B-A3B-Thinking模型,在内容创作、逻辑推理等任务中表现卓越,并升级飞桨框架 v3.2,提升大模型训练效率至 47%。

腾讯

9月,腾讯全面发力AI开源与应用,从多模态生图、3D生成、智能体框架到AI开发工具与云算力生态,构建出贯穿模型、工具、平台到落地场景的完整AI产业链。

9月28日,腾讯发布并开源混元图像3.0(HunyuanImage 3.0),参数规模达80B,为全球首个开源工业级原生多模态生图模型,支持千字级复杂语义理解与长文本文字生成,效果对标头部闭源模型,已在Github、Hugging Face等开源社区发布。

9月26日,据“腾讯混元”公众号消息,今天,混元3D生成模型家族迎新——混元3D-Omni、混元3D-Part发布并开源。这是腾讯混元在可控3D生成上的新突破,让AI 3D建模更具实用性,加速3D生成模型在游戏、打印和AR/VR 等实际生产流程中的落地应用。

9月19日,腾讯元宝全量上线公众号、视频号评论区,支持多模态内容理解、扩展提问、情绪感知与有温度互动,用户可在评论区@元宝进行总结、追问、调侃等,提升内容交互体验。

9月16日,在2025腾讯全球数字生态大会主峰会上,腾讯公布多项AI技术和产品最新进展,并宣布通过腾讯云全面开放腾讯AI落地能力及优势场景,助力“好用的AI”在千行百业中加速落地。

面对各界关注的算力问题,腾讯集团副总裁、腾讯云总裁邱跃鹏宣布,目前腾讯云已经全面适配主流的国产芯片,并积极参与和回馈开源社区。与此同时,软硬件协同全栈优化是腾讯云的长期战略投入,通过异构计算平台的软件能力,整合不同类型的芯片对外提供高性价比的AI算力。

9月9日,腾讯云发布全新AI CLI工具CodeBuddy Code,并宣布CodeBuddy IDE开启公测,面向所有用户开放使用,无需邀请码。国内版支持DeepSeek,所有功能(包括IDE和CLI)均可无限制使用;国际版支持GPT与Gemini等主流模型,可同时在IDE和CLI消耗Pro模型额度(测试期间赠送部分Pro模型体验额度)。

9月2日,腾讯优图实验室正式开源智能体框架Youtu-Agent,用户仅需两步即可快速构建专属智能体。

据介绍,该框架在权威测试中表现亮眼:WebWalkerQA 基于 DeepSeek-V3.1 准确率 71.47%,GAIA 文本子集 Pass@1 72.8%。Youtu-Agent面向实际场景的开源应用框架,能够覆盖文件管理、数据分析、学术研究与广域信息综述等多个方向应用。目前,Youtu-Agent开源框架已为腾讯云多个产品业务提供支持。

京东

9月25日,2025 京东全球科技探索者大会在北京举行:

发布 AI 全景图,宣布未来三年投入计划:京东发布了 AI 全景图,系统展示了公司的 AI 整体战略布局,并宣布未来三年将持续投入,带动各个产业形成万亿规模的 AI 生态。京东集团 SEC 副主席、京东集团 CEO 许冉在主题演讲中强调,京东追求可持续发展、真正为产业创造价值的 AI,并更新了对人工智能价值的理解,认为人工智能的价值 = 模型 × 体验 × 产业厚度的平方。

升级 JoyAI 大模型,发布三大 AI 产品:京东围绕全新升级的大模型品牌 JoyAI,发布了三大全新 AI 产品。全新 JoyAI 大模型涵盖从 3B 到 750B 的全尺寸模型,还有语音大模型 JoyAI LiveTTS 和数字人大模型 JoyAI LiveHuman。三大 AI 产品分别是下一代购物和生活服务超级入口京犀 App、万能数字人助手 “他她它”、行业首个附身智能平台 JoyInside。

升级三大 AI 基础设施平台:京东升级了三大 AI 基础设施平台,数字人平台 4.0 推出行业首个品牌代言数字人,将直播成本降至真人的 1/10;JoyAgent3.0 智能体平台已实现 100% 开源,京东内部已有超 3 万个智能体运营;JoyCode2.0 代码平台融合智能体技术,使产品开发周期缩短 30%。

发布四大场景深度 AI 应用:在零售、健康、物流、工业四大产业布局的深度应用同时亮相。全新升级的物流超脑大模型 2.0 全面走向多模态,电商创新 AI 架构体系 Oxygen 依托 Joy AI 大模型打造丰富的系统能力和多元化智能体,京医千询 2.0 成为行业首个能看懂医学报告、听懂病情描述的医疗大模型,业内首个工业供应链大模型 JoyIndustrial 以 “数据 + 智能” 驱动工业供应链效率革命。

开放产业场景及供应链数据:京东正式宣布,将面向大模型、具身智能企业的模型训练及应用测试需求,逐步开放各类产业场景及供应链数据,包括仓储、分拣、配送等物流场景,药品管理、在线问诊等健康场景,依托京东云的基础设施,为行业提供高质量的模型数据集,支撑大模型企业、具身智能企业进行模型训练。

京东健康发布 “AI 医院 1.0” 等:在 “AI 健康论坛” 上,京东健康旗下京医千询医疗大模型 2.0 版本再次全新升级,并推出全新的 “AI 医院 1.0”,在业内首创 AI 驱动 “医检诊药” 闭环。京东健康还联合鱼跃、微泰、三诺等医疗器械领军品牌,成立 “京东健康智能互联生态联盟”,并发布了 “AI 普惠医疗加速计划”。

科大讯飞

9月20日,2025 世界制造业大会在合肥滨湖国际会展中心举行,科大讯飞携十大 AI “黑科技” 产品矩阵亮相,包括 AI 工业内窥镜、AI 声学成像仪、电机声纹质检装置、多语言 AI 透明屏、具身智能采训推一体机等。

此外,在 9 月 21 日下午的 “人工智能赋能新型工业化” 羚羊专场发布会上,羚羊工业大模型 3.0 正式发布,同时还发布了羚羊工业智能体、羚羊能碳智能体、羚羊数字化营销智能体三个产品。

9月17日,科大讯飞接受机构调研时表示,公司主营业务财务报表中智能硬件收入不包含学习机,结合讯飞星火大模型能力的持续提升,讯飞自有的翻译机、录音笔、办公本等智能硬件,对于面向用户的真实场景,可以更加专业、安全地满足用户需求。全年智能硬件收入预期呈现稳中有增趋势,海外C端硬件表现出良好的增长态势。

华为

9月20日,华为在全联接大会2025上宣布正式启动“天工计划”,未来将投入10亿元资金与资源用于支持鸿蒙AI生态构建。截至最新发布的数据,HarmonyOS 5终端设备数量已突破1700万台。

华为终端云服务总裁朱勇刚在当天的演讲中表示,借助“天工计划”,华为将支持开发者构建更多AI元服务、意图框架与智能体。“期待更多的应用和智能体在鸿蒙上涌现更多让人打开想象的AI体验。”

9月19日,华为全联接大会2025(HC 2025)上,华为常务董事、华为云计算CEO张平安介绍了华为云昇腾AI云服务的重磅升级与创新进展,并宣布华为云CloudMatrix384 AI Token服务全面上线。依托华为刚刚发布的最新AI服务器规划,CloudMatrix云上超节点规格将从384卡升级到未来的8192卡,实现50-100万卡的超大集群,为智能时代提供更澎湃的AI算力。

9月18日,华为轮值董事长徐直军在华为全联接大会上首次公布了昇腾芯片演进和目标。他表示,未来三年,华为已经规划了昇腾多款芯片,包括950PR,950DT以及昇腾960和970。其中950PR2026年第一季度对外推出,该芯片采取了华为自研HBM。

360

9 月 16 日,360 集团创始人周鸿祎在 2025 金砖国家新工业革命伙伴关系论坛上发表题为《拥抱智能体,推动新工业革命智能化转型》的重要演讲。

他指出人工智能已进入 “下半场”,焦点从大语言模型升级为智能体,并强调必须走 “专业智能体” 路线。此外,360 推出了智能体工厂平台,可以低门槛、快速打造智能体。

快手

9月26日,快手直播全站上线 “AI 万象” 系列礼物,该功能由可灵 AI 与快手直播技术团队联合研发,主播和粉丝可通过上传照片并选择 AI 模板,生成真人形象的礼物特效,首批上线 4 款 AI 礼物,上线当日用户付费制作及送出次数突破 10 万次。

9月25日,快手 Kwaipilot 团队正式推出 KAT 系列两款 Agentic Coding 大模型 ——KAT - Dev - 32B 和 KAT - Coder。其中,KAT - Dev - 32B 为开源的 32 亿参数模型,在权威 SWE - Bench Verified 测试中实现 62.4% 的问题解决率,位列全球开源模型第五;KAT - Coder 为闭源模型,解决率达 73.4%,已在 StreamLake 平台开放 API 调用。

9月23日,快手对可灵 AI 基座模型进行升级,推出可灵 2.5 Turbo 模型。该模型在文本理解、动态效果和美学风格等方面均有显著提升,高品质模式下生成 5 秒长度的 1080P 视频仅需 25 灵感值,相比 2.1 模型同档位便宜近 30%。

9月18日,可灵AI推出全新数字人功能,通过一张角色图片加一段文字或音频,即可生成1080p/48FPS、最长1分钟的数字人视频。据介绍,该数字人依托多模态理解与视频生成模型深度融合,实现口型精准同步与情绪动作的精细控制,支持多类角色及中英日韩多语种,结合会员优惠最低价仅0.12元/秒,大幅降低行业门槛,适用于广告、电商、教育等场景。目前产品公测陆续开放中。

DeepSeek

9月29日,DeepSeek 正式发布实验性模型 DeepSeek-V3.2-Exp,并在 Hugging Face 与魔搭平台同步开源。该模型引入 DeepSeek Sparse Attention 稀疏注意力机制,长文本训练和推理效率提升一倍以上。同时,DeepSeek 大幅下调 API 调用成本,输入(缓存命中)项新价格为 2 元 / 百万 tokens,降幅最高达 60%;输出项新价格 3 元 / 百万 tokens,最高降幅达 62.5%。

9月17日,DeepSeek 推出的开源 AI 大模型 DeepSeek-R1 登上英国《自然》杂志封面,它是全球首个经过同行评审流程的重要大语言模型。DeepSeek-R1 的主要创新在于采用 “纯强化学习” 的自动试错方法训练,通过奖励模型得出正确答案来优化其性能,而非 “教导” 它遵循人类筛选的推理示例。

月之暗面

9月25日,月之暗面正式发布 Kimi 智能助手全新 Agent 模式 “OK Computer”,并同步启动灰度测试。该模式基于 “模型即 Agent” 技术理念,通过端到端训练 Kimi K2 大模型,显著提升智能体自主决策与多工具协同能力。

9月4日,月之暗面发布Kimi K2模型的最新版本0905,该模型的核心升级点为 Agentic Coding 能力提升、上下文长度从 128K 拓展到 256K、API 支持高达 60-100Token/s 的输出速度、支持 Claude Code。Kimi 应用和网页版中的 K2 模型已全量升级到0905最新版。

此外,Kimi-K2-0905在RooCode开源榜单中取得了优异成绩,成为首个突破90%评分的开源模型,展现了其在AI编程领域的强大性能。

9月16日,据Kimi开放平台消息,Kimi K2官方高速版API开启为期一个月的5折特惠。kimi-k2-turbo-preview是Kimi K2模型的高速版,模型参数与kimi-k2-0905一致,已提升至256K上下文。Kimi K2高速版的输出速度达60~100Token/s,是普通版的6倍左右。

智谱

9月30日,智谱正式发布并开源全新一代大模型 GLM-4.6。该模型在 Agentic Coding 等核心能力上实现大幅跃升,代码生成能力全面对齐 Claude Sonnet 4,长文本处理等性能反超 DeepSeek-V3.2-Exp。同时,GLM-4.6 已率先在寒武纪国产 AI 芯片上实现 FP8+Int4 混合量化推理部署,摩尔线程也完成了对 GLM-4.6 的适配,基于 vLLM 推理框架,新一代 GPU 能够在原生 FP8 精度下稳定运行。

生数科技

9月25日,生数科技全球发布新一代图生视频大模型 Vidu Q2。Vidu Q2 的图生视频功能分为闪电模式和电影大片模式,闪电模型下 20 秒就能生成 5 秒 1080P 视频片段,电影大片模式则主要满足对于复杂表演、运镜等有更高要求的用户。此外,Vidu Q2 的网页版、App 版及 API 也同步上线。

9月19日,生数完成数亿元人民币A轮融资,由博华资本领投,百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、BV百度风投等老股东持续加码,资金将用于多模态大模型研发、全球商业拓展与产业合作。

新一轮融资将用于模型研发和技术创新,探索多模态大模型的智能上限和应用广度,同时将持续加强产品拓展、用户服务、产业合作和全球商业布局。

9月9日,生数发布并上线「Vidu Q1 参考生图模型」,新品对标 Google Nano Banana,国内首个支持7张参考图同时输入的生图模型,实现多主体一致、高还原度、多人多场景生成,仅用时2个月完成研发,发布后10天内即上线使用,被业内称为“参考生之父”。

MiniMax

9月12日,MiniMax正式推出新一代音乐生成模型Music 1.5,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。

据悉,该模型支持通过自然语言描述自定义风格、情绪与场景,覆盖16种曲风×11种情绪×10类场景,并可精细编排段落结构。

爱诗科技

9月10日,AI视频生成企业爱诗科技宣布完成超过6000万美元B轮融资,由阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金、湖南电广、巨人网络和Antler等投资方跟投。

据介绍,目前公司全球用户规模突破1亿,自研视频生成大模型PixVerse V5位居Artificial Analysis 图生视频榜首,产品PixVerse(拍我AI)入选a16z“全球Top 50生成式AI消费移动应用”榜单第25位。

阶跃星辰

9月24日,阶跃星辰发布新产品「阶跃桌面 AI 伙伴」(小跃),这是一款为普通用户提供的桌面 ChatBot,常驻桌面右上角,可同时执行多个任务,连接本地操作系统,支持查看和管理本地文件、访问互联网等功能。

9月1日,阶跃星辰正式发布最强开源端到端语音大模型 Step-Audio 2 mini,该模型在多个国际基准测试集上取得 SOTA(State-of-The-Art,即当前最佳水平)成绩。在技术层面,Step-Audio 2 mini 采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副语言信息、非人声。

美团

9月1日,美团正式发布并开源LongCat-Flash-Chat。据了解,LongCat-Flash采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数560B,激活参数18.6B-31.3B(平均 27B),实现计算效率与性能的双重优化。据多项基准测试综合评估,LongCat-Flash-Chat在仅激活少量参数的前提下,在智能体任务中具备突出优势,同时推理速度超过100tps。

无问芯穹

9月23日,无问芯穹正式推出 “基础设施智能体蜂群”,该方案基于无问芯穹长期的 AI-Native 基础设施建设成果及经验沉淀,通过封装 SOTA 模型筛选、基础设施平台管家、资源运营、答疑排障、智算集群运维等多个智能体模块,构建高度自治、动态协作的体系,实现基础设施全生命周期的智能感知、决策与执行闭环。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。

数据支持天眼查,大模型独家合作账号

— END —

监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field

  

大模型应用创业者,你怎么看

■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例

上次介绍为什么在2025年,大厂必须下注世界模型?

本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 AI芯片 视频生成 国产化 算力 OpenAI 科技巨头 人工智能 LLM AI Chips Video Generation Domestic Production Computing Power Tech Giants Artificial Intelligence
相关文章