新智元报道
新智元报道
同时,全新深度推理大模型——讯飞星火X1.5,也正式发布!基于MoE架构的星火X1.5,总参数293B,激活参数30B。相较于上一代,推理效率直接暴涨100%。根据多项国内外权威评测基准,星火X1.5的综合性能成功跻身全球顶级大模型行列。此外,讯飞还全球首发了非自回归语音大模型架构——不仅效果提升了16%,而且推理成本也暴降了520%!从年初DeepSeek横空出世,到OpenAI的GPT-5,AI全球竞赛整整一年没有停下。技术的迅猛发展和应用场景的不断拓展,推动了AI从探索阶段走向了实际落地的关键时刻。如何落地,如何激发AI开发者无限创造力,如何让普通人也能共享AI时代的发展红利?科大讯飞董事长刘庆峰给出了一个清晰的洞见,AI红利兑现的四大关键核心:自主可控、软硬一体、行业纵深和个性化。AI进入物理世界的关键门票AI的上半场是对话革命,是算法的狂欢。在数据中心里,Token正在疯狂消耗,AI的能力在一年内增长了千倍上万倍。这催生了无数AI大脑——它们在云端无所不知,能写诗、能编码、能通过法律和医学考试。然而,当这些聪明的「大脑」试图走出数据中心,进入真实的物理世界时,它们突然变得「五感失灵」。现实世界不是无菌实验室,它充满了混乱:
不仅如此,讯飞还打造了业界首个同传麦克风,不仅可以进行实时同传翻译,而且还可收听翻译语音,时延低于2s。讯飞的AI+扬声器阵列技术,可以说实现立体空间声场重构和均衡。用于智能座舱声场的iFLYSOUND,目前已经在19家车企量产落地。音响效果可以媲美国家大剧院,而在盲测中,10万级别的国产车效果就超越了宝马740i,甚至可以媲美百万级的豪车迈巴赫S680。在教育领域,讯飞依旧持续发力。最新的AI黑板可以让教室里每个座位都是C位,在10米的距离上,声压差小于等于3分贝,每个角落都可以听清。而且这款AI黑板还采用了全球首款圆偏类自然光护眼大屏,不论坐在教室中央,还是坐在两侧的同学都能获得同样的上课体验。讯飞将软硬一体的原生AI硬件能力下放到AI学习机上,不仅将护眼功能拉满,还能通过AI算法纠正孩子学习时的坐姿。此外就是「看」,讯飞的自研AI摄像头阵列产品能够实现目标的精准识别和跟随。这些和AI紧密结合的硬件能力,并不是存在于单一的模块。不论是展馆中的智能屏摄像头,还是AI学习机上监看作业本的摄像头,不论是随身的耳机,还是未来汽车中的音响,讯飞将AI能力和硬件原生地绑定在一起。讯飞的硬件不是简单的外设,而是为AI量身定制的「超级感官」。当未来具身智能真正走入社会,和人类共同生活,软硬一体支撑的多模态交互是AI融入真实世界的物理基础。别再说AI冰冷,它比真人还贴心如今,我们身边有很多虚拟AI形象,但它们始终无法融入到我们的生活之中。这背后关键因素在于,传统AI虚拟人并不具备多模态交互的能力。它就像一个「冰冷的机器」,无法感知人的情绪,无法拥有个人专属记忆,更难以建立真实的情感连接。要真正做到多模态交互,还需要具备以下几个关键要素——麦克风远场识别、3D世界感知、多人主动交互、类人举止反馈、视听觉融合理解、超拟人数字人、个性化记忆、情感语义。只有以上所有技术,综合联动耦合,这样的AI数字人就可以进入更加深度应用的空间中。这一次,发布会上,讯飞基于星火X1.5深度推理模型之上,首发个性化记忆能力。通过多源记忆库信息检索和应用,它可以找到个人记忆,并进行识别、提取、更新。现场演示中,两位讯飞伙伴一位歪果仁朋友Henry和与虚拟人「小飞」,开启了多轮「有记忆、有情感、有温度」的对话。他们一走到屏幕前,小飞一眼识别到新朋友,并自动切换语种——英语和Henry无缝交流,得体自然。在三人的交流过程中,AI并不会无意间插话,而是认真做一个旁听者。这就体现了,在多人对话中,AI理解场景的能力。接下来,小伙伴们又和小飞交流起发布会展区的实况。让其推荐一个适合翻译交流产品,它立即给出了建议——双屏翻译2.0、AI翻译耳机,以及在展区的位置和购买方式。小飞还可以为Henry推荐安徽著名景区黄山,打卡美食臭鳜鱼,甚至还可以帮忙预订酒店、门票。不仅如此,诸如对话时暂停、挥手再见等手势,小飞也能秒懂并回应,堪比真人理解力。它甚至拥有独特的人性化记忆。当小哥说要当Henry的司机,小飞非常关怀地问道:「我记得你前几天不太舒服,出去玩没问题吧?」小哥当场描述自己的症状后——这几天有点受凉,流清鼻涕,让小飞帮忙辨别应该喝哪种药时,小飞会依据症状分析得出:吃荆防颗粒。顺带,它还贴心提醒他们,未来几天黄山天气多变,需要增添衣物。更有趣的是,让小飞扮演「林黛玉」,并总结为Henry制定好的旅行计划。只见,从音色、到形态,简直有模有样。其实,不止林黛玉,讯飞数字人还可以模拟各种声音。发布会上,他们首发了「百变声音复刻」,一句话即可上演角色宇宙,实现真实的超拟人交互。演示中,输入一句话,可以创造一个温暖的女声音色,也可以是一个嗓音粗犷的大将军音色。超拟人数字人之所以能够实现流畅的多模态对话,不仅依靠前端麦克风、摄像头等硬件协同。更重要的是星火所支撑的多轮对话、语义理解与生成能力,再结合个性化音色等,这些技术做到了深度融合。正因此,才能让当前「同质化」大模型,真正转变为每个人身边贴心、实用的学习与工作助手。更懂你的AI,告别千篇一律所以真正的AI,不是千篇一律的AI,而是可以让每个人站在AI肩膀之上,懂你所需的AI。每个人应当借助AI,成就更好的自己。那么,要成为一个更懂你的AI,需要具备什么样的条件?它能够满足一个人的成长需求、工作需求、生活需求,以及情感需求。它还要具备历史记忆、人格特征、多维理解、专有知识的能力。涵盖面如此之广,听起来又很抽象,不如我们就把它放入实际场景中,去看看「懂你的AI」究竟是什么样的?批改纠错,小时级闭环以教育为例,如何真正做到「理解孩子」,关键在于为孩子的学业减负增效,释放更多时间。这背后,核心在于「懂学情」。如今,在智能评分、分布骤批改作业、错因分析三座高峰,讯飞AI能力不断提升,并持续保持行业领先水平。他们首创的「三级错因体系」,覆盖了4000+错因标签,可以让AI错因诊断水平超越普通教师。这不,大会现场,「数学老师」拿着待批改的试卷,生动还原了一场真实的教学场景——课程内容是:二次函数与一元二次方程、不等式。她将一摞学生试卷,放入星火批阅机后,便开始了高效的作业的扫描。它能以1分钟,扫描一个班级的量。没几分钟,扫描和批阅几乎同时完成。以第一位同学周恬(化名)的数学作业为例,在解答题部分,AI可以「分步骤批改」,并给出了错因诊断,以及纠正方案。
人人可用的晓医App同时升级,结合健康档案,提供用户及家人更专业、更个性化的健康洞察和管理建议,让看病问诊真实走向普惠化。你的下一个副驾,会「读心」接下来,如何把LLM集成到汽车中,让它在出行的过程中更懂你呢?当你在车上冷到发抖时,它会秒开座椅加热、暖风空调;发现水坑挡路,它会立刻提醒「右侧有积水」;甚至开车不断眨眼的细节,它都能够感知,还贴心给出用药建议,下单滴眼液......这样的AI,就像是把心灵感应功能刻在了DNA中。它就是「星火智能座舱2.0」,做到了懂你、懂车、懂环境,这样的汽车才是真正的未来。打工人终极外挂还有在工作场景中,打工人需要的不只是一个会写调研报告的LLM,而是一个懂你岗位、风格、资料、同事的AI。讯飞智能办公本,就是典型的代表。现场,刘庆峰一边「布置作业」,办公本一边录音记录,还能随时做笔记。同时,手写纪要还可以和AI纪要深度融合,手写的会议要点会在最后生成的纪要中强化展现,并且,所有的纪要内容可精准回溯至原始录音,核对更高效。说话结束后,它会帮你自动转录,生成总结摘要,而且还会根据声音,备注出每个说话人的名字。它还能准确提取待办事项,打工人直接加入日程,方便后续跟进了。小彩蛋最后,讯飞现场还放出了一个小彩蛋——AI星朋友。每一个人,都可以拥有自己的「AI朋友」。它可以成为你的情绪树洞,也可以是你的人生队友。AI星朋友有超160种人设模型定制,还能通过「自学习情感模型」记忆个人偏好,聊的越久就越懂你。现在微信搜索“AI星朋友”小程序,即可创建懂你的声音、接听专属的温暖。开源首个原生支持RAP的智能体平台一直以来,讯飞坚信,只有整个生态的繁荣,才会有人工智能的大未来。过去一年,开放平台的开发者增长了200多万,其中增长最快的是智能硬件开发者、大模型企业开发者。此外,新型智能体的开发,有一半来自非技术领域。AI走向落地,智能体是一个不可多得最佳应用案例。而这一年,我们也见证了诸多智能体AI的诞生。发布会现场,讯飞面向开发者,正式发布首个原生RPA智能体平台——Astron RPA。Agent+RPA可以跨越应用鸿沟,将「大脑」和「手脚」结合,跨越AI应用鸿沟;还可以有效打通企业内缺少接口的IT系统和账号体系。软硬一体之争,谁是破局者?过去一年,AI发展速度之快,已超越了历史上任何一次工业或技术革命。如今,算法、算力、数据已成为基础设施。接下来,谁能让AI真正进入物理世界,谁就能定义智能的未来。因为,只有AI落地,才是兑现红利的起点。过去几年,AI巨头们几乎都在同一维度上狂奔。OpenAI用GPT系大模型掀起了认知智能革命,谷歌又用Gemini试图重塑多模态范式。还有Anthropic、Meta、xAI、微软等玩家,各自拉起了模型矩阵。它们不仅坐拥巨量的算力资源,还在算法创新上不断堆叠,这种路线的成就毋庸置疑——ChatGPT、Gemini、Grok、Claude大模型,都代表了当前人机交互的新高度。然而,在强大的大模型,离真实场景往往隔着一层「玻璃」,即落地的核心:AI能否真正兑现红利。每一种场景,都在呼唤一种更深层次的多模态理解与交互。要实现这一点,任何纯软件的方案——无论是手机App,还是云端模拟,都只是隔靴搔痒。实际上,硅谷巨头们早已意识到了这一点,走向软硬一体,能否让技术「活」在用户手里才是密钥。就以谷歌为例,其Gemini Nano已下沉到全新Pixel 10系「全家桶」。不论是离线翻译、AI摘要总结,还是实时生成图像、智能拍照等场景,一部手机+端侧模型即可完成。他们还专为模型,量身打造了Tensor芯片,直接将AI能力深度嵌入芯片和传感系统中,做到真正的原生AI体验。微软PC全球生态覆盖超十几亿,其打造的AI助手Copilot,植入Windows系统提供了更智能的体验。再比如,OpenAI多次爆出重组机器人团队,与博通联手定制AI加速器;特斯拉以物理世界为基础,将Grok植入擎天柱、自动驾驶「大脑」......这些实践足以说明,没有软硬一体,智能永远悬在空中。然而,放眼全世界,很多企业理解的软硬一体,更多地停留在了「堆叠层面」——
文章原文
