2025-10-02 21:42 四川
原作者:B站用户上车行
原视频链接:
压缩版:MindGPT 4o的Audio语音大模型,是一款全双工低延迟的端到端大模型。此前一般的方式是先唤醒后识别再理解,最后调用执行、TTS播出来。理想的创新是将传统集联式链路串在一起(网络接入、业务逻辑、模型推理等),去实现音频全流式推送。尽可能将流式音频及时送到各个服务模块,启动预计算,包括计算堆叠并行,显著降低延迟。理想延迟最低150毫秒,一般其他家在300-600毫秒左右。针对用户犹豫不决的这种对话的内容,能够自适应调整响应时间。角色扮演,不是传统做法那种更换几个语音发音人,而是升维做IP,做轨迹家人。交互风格、形象、MBTI、故事情节设定、人物背景、整体技能都有规划。传统车企因为项目管理不统一,连IP形象建立、姓名、音色都难以统一。理想小同桌的核心的优势,深度理解自然语言的交互,包括细腻的情感沟通的能力,比较贴心的家庭场景的垂直类优化,不仅能在产品性能上去领先行业,更关键的也是,理想最擅长的,它在真正的用户体验上来去创造非常好用的东西,非常细的点,非常棒的情感连接。TOP2短评:这个解读本身完备性、一针见血性不是特别强,但可以作为一个思考线索作为参考。完整文字版:今天再和大家来去聊理想智能座舱小同桌的功能,做这个视频主要有几个原因,第一回复上个视频这位观众提出的问题,他问理想小同桌到底好在哪?第二个原因,每个视频也权当自己作为一个产品的思考跟记录,因为虽然我没有去理想,但我觉得常关注深思考这个行业第一梯队的竞品,从专业的角度来去解析和学习,并且有自己的判断力,这是一个保持学习能力非常重要的途径,要不然我可能就待废了。同时心里我还是有一个想做出好的产品的这么一个心。第三个原因的话就是在视频下面,包括私信大家真实的评论和沟通,能让我更加的去了解一个产品设计的优缺点,以及怎么样进一步的改进和优化最真实的来去,吸收用户的心声。话不多说,让我们直接开始,我尽量深入浅出的来去跟大家聊一下,把握好这个产品的思考,技术架构的分析,包括用户的体验分析,这几者之间的一个平衡。首先先说一下,理想小同桌这个功能是在OTA7.4上线的主打的几个点,沉浸式的角色扮演,情感化的对话交互,多场景的适用性整体的这么一个智能伙伴。这个地方就不得不提了。我上个视频有说到,某些人还觉得它是一个大模型的APP搬上车。我把文心一言,我把星火我把通义千问给它装上去不就好了。那么好,问题来了,第一MindGPT 4o的Audio语音大模型,它是一款全双工低延迟的端到端大模型,咱们原先先唤醒后识别再理解,最后调用执行、TTS播出来对吧?现在的他创新是把传统的这种集联式的链路给它串在一起,像网络接入、业务逻辑、包括模型的推理等等,它能够去实现音频的全流式的这么一个推送,它尽可能的将流式的音频去及时送达到各个服务模块,并且启动这个预计算,这样的话其实它能够去实现全链路的这种通信,包括计算的这么一个堆叠并行,自然而然就能显著的来去降低延迟的一个水平,对吧?这是一个技术策略创新,我们再说具体的产品体验上,我觉得就一个字,就当下非常明显的字,快。你去和她聊天和她问题,它回复的速度基本可以达到人与人沟通的交互的这么一个响应时间了。还有一个小的点,就是它对于不同类型的用户的对话会进行不同时间的断句,也就是我们产品策划或者技术测,大家可能都知道VAD对吧?也有所谓的动态VAD或者语音VAD的这么一个概念,但我觉得它是更加的进阶了一下,在实际的举个例子,今天有什么热门的新闻。能够去进行一个快速的响应,并且从理论值来看,它判定的延迟最低可以低到150毫秒,150毫秒什么概念?意思是从咱们说完这句话,这是一个普遍性的解释。从咱们说完这句话,大模型侧认为我们说完了这句话中间的一个间隔150毫秒,而我们正常的语意侧VAD,或者说我们普通的VAD是一个固定指标,可能大概在300~600毫秒左右,这是一个可以设置的值,当然会平衡各个场景各个对应的产品的效果。我们再回到刚才说的这个点上,在针对用户犹豫不决的这种对话的内容和背景中,比如说他说一个我想要正在思考对吧?以及这种对话轮次比较模糊的这种背景,我今天心情不太好,想在这种情况下,他能够去自适应的去调整这种响应的时间,等待用户。继续说,其实也是、产品设计、中的,一个小的点,一个小的巧思。第二点就是在这个角色的扮演上,它其实不是和咱们传统的做法一样去语音设置里面去更换几个语音发音人,甜美女生,稚嫩童声,四川话,粤语这是非常常规的做法,大家都在互相抄。但是理想很明显的是在做另一个维度的事情,打IP打硅基家人,这个其实是理想很早之前提出来的一个点,不仅仅局限于音色的更改,你像最重要的交互的风格,人格,形象。甚至它的mbti,i人还是e人,它的故事情节的设定,它的背景,它的整体的技能,这些很明显都是有规划有筹备有想法的,但是在我们过往的车企的项目中,且不说根本就不会规划的那么细,那么的通盘考虑,甚至就连IP形象的建立,姓名、音色这几个最基础最容易也应该统一的点都做不到很完善,为啥?A项目是一个样子,B项目又是另外一个样子,因为A项目和B项目是两个项目组长,因为A项目和B项目的两个供应商选型不同,并且还因为A项目和B项目都不知道自己有没有延展的车型能不能到自己手里等等这种原因很多,回归到具体的产品体验。目前出来的这几个角色很明显都是经过了精心的调教,它整体的人设的风格,回复问题的状态,口语化的表达已经做的相对来说我觉得不错了,尤其是对于理想汽车的用车人群有这么一个能释放小朋友的小同桌,我相信各位司机爸爸们应该会感觉到不错。有孩子的朋友们都知道,孩子在后排安儿童座椅上坐着一会儿,这个一会儿那个车子根本没法好好开,最终想达到的或者说能够感受到要达到的一个目标是我一个人在监督驾驶,孩子在后排的儿童安全座椅上不打扰我精力的呆着,这是一件非常美好的事情,我不知道理想产品的内部关于在这方面的产品愿景是不是和我刚才表述的或者我的想法一样。最后再说一点,整体的产品的形态和HMI的交互形式,我觉得非常的返璞归真,为啥这么说?在23年国内大模型的浪潮开始卷起来的时候,其实说实话大家都没有想好去做什么,但有一个基本的认知,大模型能聊,能当一个百度百科用,当然虽然它经常错有问必答,然后最初的产品形态就那么慢慢的出现,把这个软件或者功能我们给它放车上。用户想聊天的时候他说了一句,打开聊天模式或者打开某一个APP,就能进入大模型模式,然后用户可以进行各类的聊天,但实际上了车之后发现该难用的座舱它依旧难用,并没有因为上线一个特别能聊天特别能问答的一个APP就改变用户的认知和体验习惯。当时也有非常大的一些局限性,比如模型的专业度不够,比较通时没有对应的专家模型,交互的延迟也比较大,发言人的拟人度自然度也都比较弱等等,这是当时的一些局限性。我们再回过头来看当下,小同桌的他依旧是以一个单独的APP形式来去上车的,我个人猜测两种可能,第一当下还没有完完全全的设计好,如果放在理想同学中融合在一起,那这两者的融合交互区分对吧?后续的人生规划以及还有VLA小李师傅的趋同,我们应该来去怎么做,这可能是没有完完全全的去想好的东西,这个东西一定是非常需要进行细致规划好,并且最关键的要满足用户这个第一学期成本和高可用性的这么两个大的点,符合用户的自然心智,你别一个车上搞了好多的智能体,好多的唤醒词,好多的智能伙伴智能助手,我应该怎么用,这个是要给用户来去做区分好,并且就像刚才说的低学习成本要高可用性,要满足用户最初的一个心智,这是我的个人猜测的可能之一,然后可能这样当下其实相对来说已经比较明晰了。理想同学就是一个全场景的智能管家,作为一个基础的这种交互的入口,你像覆盖、质控、导航、娱乐、信息查询等等这种高频刚需的这么一个场景,强调工具属性和效率导向。小李师傅他是一个驾驶场景的专属agent的名称,它的核心价值在于驾驶类决策的一个自然交互,这是第二个。第三个就是小同桌的方言的,尤其是方言IP的这么一个形象,主打一个娱乐化的陪伴,所以说也有可能就是我刚才说的可能这样对吧?已经区分的比较清楚。上述是我想说的理想小同桌深入浅出的来就说他三个最主要的这么一个优点。最后再综合说一下理想小同桌的核心的优势,深度理解的这种自然语言的交互,包括细腻的情感沟通的能力,还有这种比较贴心的家庭场景的垂直类的这种优化,我觉得这种优势在小同桌上不仅能在产品性能上去领先行业,更关键的也是,理想最擅长的,它在真正的用户体验上来去创造非常好用的东西,非常细的点,非常棒的情感连接。同时对于座舱的产品经理而言,我觉得理想小同桌的成功的经验至少对我自己的三个比较关键的洞察,一个是技术架构还是必须要去服务于用户体验的,对吧?而非相反的状态,我们很多时候都是相反的状态。第二点其实也验证了我自己个人的这种规划的一个想法,就是不考虑那种客观因素,组织架构包括一些资源的问题,我是没办法来去做处理做解决的,从我自己的角度来说的话,我对AI的整体的设计可能或者说座舱助手的这么一个设计分为三个大的阶段,第一阶段还是当下,要好好的去增强一下本身上的这么一个能力。第二的话就是成为助手,助手这个概念很大也可以很细,我们要把它给做好做深体验要做优。第三点的话变成一个家人,我们可能大家的同行 PPT里面应该都有写过,钢铁侠贾维斯那是一个家人般的存在,非常聪明非常智慧,能帮我很多的价值,所以这是我个人对于AI设计的三个大的阶段,三个大的方向,其实这是一个系统性的工厂里面的工作非常多。这是我的思考或者洞察之二。第三个点,每个车企每个车型的目标人群是不一样的,我们是需要特别针对性的来去进行功能的打磨,对吧?对于理想来说,它家庭场景的深度的优化,绝对能形成一个非常强大的差异化的优势。加微信,进群深度交流理想实际经营情况与长期基本面。不是车友群。