原创 BayJ 2024-01-22 21:36 广东
前言距离上次写大模型应用的文章已经过去了大半年:搞懂语言大模型(番外):40+应用案例精选这期间虽然AI新闻如火如荼,我个人感知大模型应用生态并没有太多变化,不过还是想记录下近期在大模型应用上的现象观察和浅显见解。这篇文章会从GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI等)聊到AI Agent 、大模型的多模态能力和产品推荐,涵盖了23年下半年至今大模型应用领域的最新进展。全文8500字,enjoy~
不过,下面才是我想表达的核心观点:面临的挑战
- 没有创造新的场景,多是在做原有场景的改造
- GPTs的产品形态并不占据绝对优势
- 很多创作者是去薅流量的
- GPTs被复制抄袭的门槛太低
- OpenAI不是唯一一家开放API的大模型厂商
1.2 大模型中间层目前国内比较明星的产品有两个:Dify于 23年5月推出,字节12月上线了类似的产品Coze。这类产品能够接入多个大模型能力,并通过可视化编排,基于任何 LLM 部署自己版本的 Assistants API 和 GPT。这些产品提供的定制能力是远远强于Chat GPT的GPTs的,目前还有可免费白嫖的GPT-4推荐使用。Dify官网(设计也很棒):https://dify.ai/zhCoze:https://www.coze.com
中间层产品价值
- 降低集成难度
接入多个大模型,隔离大模型更新风险中间层可以对下游客户屏蔽大模型版本更新带来的影响,确保产品稳定性。提供更多辅助功能中间层还可以提供日志、监控、数据标注等辅助功能,为开发者提供更多价值。
Coze在Coze中可以看到公开的Bots及 Bots的详细设置图为一个仅靠Prompt和Plugins定制的推荐B站视频的Bot
定制案例:AI趋势总结Bot参考Bilibili Assistant,我想尝试定制一个能为我总结AI领域最新趋势的Bot。构建前可以先阅读Coze产品文档:https://www.coze.com/docs/prompt.html,比如官方给出了Prompt的写法建议:1.首先,填写创建Bot的简单信息,头像可以使用Coze内置的AI能力生成2.Coze中有许多已经内置好的Plugins,我在此选择Google 和Twitter 两个Plugins.3.按照官方建议撰写Prompt,并且在右侧对话框进行测试,我的Prompt经过了大概4-5版的迭代。迭代记录:4.设置开场白、定时任务的功能测试效果经过我的测试,用Coze简单定制的Bot回复效果已经比Perplexity的效果好,特别是在调用Google搜索的结果上给了我很大的惊喜:测试一:询问24年的AI产品更新测试二:询问MJ V6版本更新的具体内容测试三:检索Twitter推文在twitter内容的总结上,回复时好时坏,只能达到5成可用状态。出现了一些啼笑皆非的状况,比如分不清Adobe AI和人工智能AI,同样的问题过几天问返回的结果也一模一样等。我猜测这些问题是由于Coze中没法接入我的Twitter API Key导致的,Prompt的方式也让我无法更准确的定义接口调用方式。定制这个Bot的初衷是当作Twitter趋势生成器使用的,结果无心插柳柳成荫,做成了可以白嫖无限GPT-4额度的且比Perplexity更好用的AI搜索引擎,我已经在频繁使用了。
总的来说,Coze的能力很复杂也很强大,但在深度定制Bot的能力上缺乏详细的指引,字节官方的文档虽然详细但对于多任务处理、Prompt调试等没有给出更多建议,Plugin部分的文档非技术人员看着还挺头晕的。帮助用户定制真正好用Bot,大模型和中间层都还有挺长的路要走。
产品形态Replika做重虚拟角色定制过程,强调角色唯一性。Replika的定制过程而Cai、Talike、星野、筑梦岛等一众产品则是提供众多Bot供用户选择,并支持UGC创建Bot并分发。Aura进入后虽然只有单个角色,但支持开启多个剧本的角色扮演,并且剧本由AI生成(降低了重复性)可以体验和较长文本的对话。唯一遗憾的是剧本中的人设、名称上都没有做到统一,让用户产生割裂感,在整体体验上不如乙女游戏中的剧情解锁丰富。Aura的角色扮演多模态开始卷起来了长期来看,模型能力是Chatbot类产品的核心,但图片、语音等多模态内容的丰富可以在一定程度上弥补模型能力的不足。形象产品表现层上,除了Replika使用了3D捏人 ,其他产品还处在快速大批量AI图片生产的阶段。(不过就过去一年元宇宙的观察,做重3D不一定是一个好方向,迭代速度慢、开发成本高,用户手捏的效率不必切换一个Bot低,另外国外的3D人物画风总让我觉得怪怪的😂)毕竟是竞争激烈的2C赛道,用户非常“看脸”,但目前AI生成的风格。值得一提的是,爱塔的部分Bot率先使用了动图,让用户在刷feeds时的场景沉浸感更强。在Pika、SVD产品控制能力加强的趋势下,未来ChatBot立绘的动态化应该很快会被广泛采用。语音从表格中可以看到,最新推出的产品基本都配备了TTS能力,从数据和体验上看,语音能力能强化有助于用户留存。爱塔、星野在列表停留在某个人物时就会播放开场白,完全不需要看详细的人设就可以对人物有一定带入,美中不足的是对话时无法自动播放语音,否则体验还会更上一层楼。以下纯属个人浅薄观点记录,不一定严谨准确,欢迎后台留言拍砖交流。
长期使用趋势在保证模型记忆力的情况下,我认为情感陪伴类用户会在长期的筛选中选择1-3个心仪的Agent进行长期高频的沟通对话,同时会存在阶段性的替换需求(新鲜感过去了换个更好的聊)。但目前这类产品擦的倾向实在太高,未来国内监管的力度带来的影响不可知。
方向分析和预测市场情况总的来说,因为国内监管(对NSFW内容的限制)、国内外2C用户付费能力的差异(与其他互联网产品不同的是,大模型是有成本的,且短期内不会迅速降下来),大部分从业者应该都不太看好该方向在国内的发展。海外App store中这样的虚拟18+产品已经一大把了但毕竟国内拥有巨大的人口,且国内市场乙女向有《恋与制作人》《光与夜之恋》《橙光》等成功案例,加上情感陪伴底层诉求,Chatbot的市场还是存在的。此外,C.AI 形态的产品崛起让一部分用户涌向成本更低的AI虚拟人,极有可能会抢走一部分IM、Dating APP的活跃和时长。(至于抢走多少,可能还要看该赛道产品的未来发展)但倘若IM、Dating产品做这件事,又像是搬起石头砸了自己的脚,降低了平台上真实用户的连接机会,也会对已有的产品调性社区文化产生反噬,这里我持长期观望状态。不过也许未来有天当AI内容不再稀缺,用户反而想要回归和真人的社交关系也并非不可能。
产品规模单纯从国内市场而言,我认为这部分产品吃的是小众垂直强诉求的用户市场,用户量天花板不会特别高(具公开资料显示,Soul 探探巅峰期日活均在大百万级别、恋与日活18年200万 ,独立Chatbot产品应该不会超过这个上限了),因此其不会是大公司眼里Top级别的好生意。
为什么我们会看到大厂全都往这个方向挤?我猜想还是看中了Character AI为首的产品拥有可观的留存与时长。今天的2C互联网早已变成注意力的生意,除了抖音以外的头部产品无不面临数据下跌带来的焦虑感,而Chatbot可能就是一剂短期止痛药。另外一个原因就是竞争对手都在做,无论如何都要入局做主动性防御。不过大公司基本都看重已有用户盘,因此比起做独立APP,内嵌在已有产品中是更合适的形态。不过说不好未来会不会面临和OS系统厂商争抢市场的局面(这些年OS厂商在语音助手上的功夫也不是白下的,以及OS发布会也需要新的AI故事),因此如果真的想做这个方向的产品,更早出发较好。
1.4 大厂在Chatbot方向上的优势是?资源整合,辅助已有需求场景前面提到过,对于已经拥有一定用户量级的产品来说,可以将Chatbot能力融合到具体场景,用户的使用会比较顺滑自然。像钉钉这类办公产品接入虚拟助手对话能力、GPTs去为打工人提效是很有必要的。对于抖音这样的平台,Bot定制能力适合开放给中小商家、视频直播达人等。比如培训机构、商家可以在Coze平台上定制虚拟客服,通过上传知识库让模型了解自家产品概况,在短视频、直播评论区、群聊场景辅助创作者进行问答、评论区互动、私域引流等,提升用户下单转换,能进一步增强抖音电商和群聊的能力。之前也YY过,头部KOL适合用自己的IP做Chatbot IP定制,比如用户可以对李佳琦的Bot咨询护肤技巧、购买建议。至于陪伴类虚拟社交方向,估计乙女游戏已经看到了陪伴类虚拟社交产品的兴起,作为防御应该会在游戏中加入对话能力,进一步保证留存和用户时长。
更天然的交互场景还有待挖掘在PC端,Raycast、Arc均提供了快速向Chat GPT提问的能力。同样地,在移动端如果能做到用户在不用点击加载应用就快速唤起大模型进行对话会更好,当然这个方向我目前想到的解法都更适合OS厂商去做。
拿iOS现有的交互简单发散几个可能的方案:方案一 激进派:用户可以将桌面某一屏设置成智能助理,并可以直接对话。锁屏页面解锁,智能助理已经将新信息归纳总结,也可以进入和智能助理对话的桌面查看并快捷处理信息。方案二 保守派:桌面下滑搜索改成和智能助理对话的功能,需要了解什么直接询问智能助理即可。相比于方案一没有那么激进,更适合智能助理能力有突破但还没那么接近AGI时的方案。如果有OS厂商看中了idea记得给我打钱hhh
当然,这些都是理想情况的YY罢了,想要调动自身生态外的应用回传数据,实现难度可想而知。另外,如果过于强调效率,移动设备繁荣的应用生态失去了用户时长、广告收益,带来的种种的问题对OS厂商来说也是非常难解的。这也是我没那么看好近期发布的集成了LLM的智能硬件Rabbit tech的原因,此类产品大概率噱头大于实际效果
2.1 AI Agent定义准确的来说,AI Agent指的是一种智能代理系统,它接近人类的大脑,可形成记忆、达成行动规划、自动交互、主动预测。目前AI Agent 的概念在市场上并没有达成共识,存在被广泛滥用的现象。(很多Chatbot应用给Bot冠以“智能体”的名称,准确的说是对Agent的误用)AI Agent应用的特点
- 个性化:随着用户的使用越来越了解用户习惯和想法,从而作出喜好预测
- 多Agent协作
2.2 惊艳的Dot APPDots是目前看到的最接近理想AI Agent 形态的C端私人助理。手机厂商、智能音箱炒了那么多年私人助手的概念,终于有像样的产品出现。在公开的案例中,Dot 支持用户发送文本和图像、音频信息并理解内容,它能够为用户制定计划、进行文件管理、推荐咖啡店,帮助用户访问互联网中的最新工具和服务,Dot希望成为用户个体意识的延伸。其设计师是前Apple设计师Jason Yuan。虽然Dot看起来和Chat GPT一样也是将不同任务的对话进行分类,但在信息展示和动画设计上,Dot的确更加亮眼。目前该产品需要排队较久的waitlist,官方也较少更新动态。官方twitter:https://twitter.com/newcomputer官网介绍:https://new.computer/about
23年下半年,GPT、Gemini Pro 在发力多模态识别、多模态输出上发力,不管是移动版Chat GPT的语音功能、Dall·E3的使用体验还是Gemini Pro 的宣传片都相当亮眼。此外语义理解能力极大增强未来会逐步影响到应用层,相信未来只要通过Prompt控制生成的视频、音乐效果都会逐步得到改善。3.1 Dall·E3此前模型的训练数据通常是由人类描写的图像文本和图像训练而成,而人类描写的文本内容倾向于简单描述,容易忽略图像背景中的大量细节:于是OpenAI 建立了一个图像标题生成器,通过建立拥有详尽图像文本描述的数据集进行模型训练来强化模型对图像的理解能力,下图中可以看出,训练的数据包含了从互联网上抓取的选定图像标题、SSC(合成的简短标题)、DSC(合成的长标题),长标题中不仅描述了图像的主题,还描述了它的周围环境,背景,图像中的文字,风格,颜色等。而这样的数据将大量用于Dall·E3的图像生成模型训练。相信大家或多或少看过Dall·E3的使用案例,其在图片生成时对语义和上下文理解达到了令人吃惊的程度。在这里分享好友瑶酱使用Dall·E3、MJ V5.2、SD对《小鸭子》童话故事进行的测试,可以看出相同提示词的情况下,Dall·E3到底有多强:
3.2 GPT-5据Sam Altman透露,GPT-5将在推理能力、可靠性等方面远超GPT-4,twitter上部分用户透露的图片可以看出GPT-5将在多模态方面会增加视频、3D、GF capabilities的支持。*Generative Flow (GF) 是一类生成模型,通过构建连续的概率分布来模拟复杂分布,从而实现高质量的生成。
3.3 Gemini AI谷歌前段时间公布了Gemini AI模型,虽然官方承认宣传片存在后期剪辑,视频中的效果还是着实惊艳到了大家。从谷歌披露的视频情况看,模型从对话到图像、视频理解、生成能力都有非常全面的提升,能够像人一样猜出地步藏着纸团的杯子是哪一个,和人类进行简单的游戏模拟,还能根据看到的两团毛线团生成针织品成品图。甚至,可以根据视频内容写出代码。目前,Google披露Gemini将提供三种版本,Ultra、Pro和Nano,分别适应复杂任务、广泛场景和不同设备。
- Ultra版本是功能最强大的模型,能够在各种复杂任务中提供最先进的性能,包括推理和多模态任务(应该就是上述视频中展示的版本)。Pro版本在成本和延迟方面进行了性能优化,提供了广泛的任务上的显著性能。Nano版本是最高效的模型,设计用于在设备上运行。训练了两个版本的Nano,分别具有1.8B(Nano-1)和3.25B(Nano-2)参数,针对低内存和高内存设备。通过从更大的Gemini模型中蒸馏来训练,并且是4位量化以便于部署。
目前市场上的大模型产品比较普遍的形态是插件和网页,这里选取这段时间我个人在使用同时在市场表现比较出众的几款产品分享。4.1 沉浸式翻译该产品主打在所有网页双语翻译、PDF文档对照阅读。因此前我用Open AI Translate和浏览器自带的翻译能力比较多,沉浸式翻译作为一个备选工具在使用。不过最近新发现的一个能力非常打动我,可以一键开启网页中 Youtube视频的双语字幕,因为YouTube自带的字幕翻译能力点击路径实在是太长了(得先开启字幕 - 再在设置中找到字幕翻译 - 滚动到最下方选择中文),这个功能会是今后我在Youtube视频观看场景的刚需(如果能接入Twitter 视频就更好了)。插件安装地址:https://immersivetranslate.com/
4.2 KimiKimi AI是由月之暗面科技有限公司开发的一款产品,其最大的特点在于超长文本(支持最多20万字的输入和输出)的处理和基于文件、链接内容对话的能力。用户可以上传TXT、PDF、Word文档、PPT幻灯片、Excel电子表格等格式的文件,Kimi AI能够阅读并理解相关内容,为用户提供基于文件内容的回复。该团队从超长文本处理的角度,精准切入其他大模型产品都不具备的特征和使用场景。目前我最主要的使用场景是阅读AI论文,偶尔会拿来提取信息量比较大的播客信息(不过这个场景被下方的通义听悟给替代了):
4.3 Monica该工具集成了非常多的功能,包括聊天对话、PDF翻译问答、Youtube摘要、文生图等能力。很像是Chat GPT、沉浸式翻译 、Kimi 等多个产品能力集成到一起的工具箱。甚至还集成了一些办公场景的实用工具。值得一提的是,备忘功能(Memo)支持记录用户看过(总结过)的文章、视频,支持剪藏图片,作为个人知识库进行沉淀,这部分的内容也可以在聊天模块进行进行提问。因功能全面,浏览器插件的形态使用方便,Monica受到很多用户喜欢,Chrome插件商店数据显示该插件一共有100w安装量。但由于我是在不太喜欢浏览器侧边常驻悬浮窗,在试用后就没再继续使用Monica了。官方网站:https://monica.im/
4.4 通义听悟在对比了多个播客转文字的产品(飞书妙计、BiliGPT、memo AI)后,阿里出品的通义听悟无疑是体验最好的一个。其首页就突出了转录播客的功能,注册赠送10小时免费转录。支持播客链接直接转录,准确率非常高。此外,还能够在转录后自动生成问答回顾(很刚需,其实都免去了打开Kimi总结提问的那一步了)。选中文本,音频内容会自动定位到对应位置,基本上满足了我对播客内容转文字的所有诉求。
4.5 心光这是一款心情笔记APP,是目前大模型应用中能够较精准面向2C用户需求的产品。在已有笔记产品基础之上,心光最大的特色在于记录笔记之余提供了一系列AI能力。比如会通过AI为用户的心情笔记进行主题聚类。首次使用心光时,用户会自定义心光中一个非常重要的水晶球AI的角色(伴侣、朋友等)。在记录日记的同时用户可以通过个性化的水晶球AI 抽取塔罗牌、求夸夸,获得AI的反馈,不过实际体验感觉部分回复还有些机械和模版化。另外,每周来信是个我非常喜欢的功能,在持续的记录后,能有一个异步的总结反馈让用户感觉非常惊喜,也能激励用户持续使用下去。心光搭载了部分本地化AI模型,为打消用户对隐私问题的疑虑,采取了数据上传iCloud的方式进行信息存储。目前该产品在仅有两人全职的情况下发布,功能完成度非常高,但APP在表现层UI层级上处理的没有那么好,加上功能较多,有时会找不到功能、看起来装饰性的图标其实是可点击的按钮等等,使用时会一点点心理负担。
小结虽说大模型诞生后没有带来新的需求场景,而是在原有场景中做改造,还是诞生了许多好用的产品,为内容生产、消费节约大量时间。24年,模型能力的进步应该会更快的渗透到具体应用中去,期待接下来的更多大模型能力的释放。
相关推荐【GPTs】1. GPTs 分类查看:https://www.gpts.fan/2. GPTs Top 100:https://www.gptshunter.com/【AI Agent】1. 对AI Agent的概念、几个优秀产品和使用场景都有详细介绍:2. AI Agent的千亿美金问题:如何重构10亿知识工作职业,掀起软件生产革命? 【Chatbot 虚拟社交】博主马丁的面包房关于大模型应用赛道的多篇硬核文章,是目前看过最深度且全面的思考:1. 23.08.15_大模型赛道的技术和应用分析(残缺):https://whjlnspmd6.feishu.cn/wiki/DBnWwik1piTB6Iki02CcXoVQn3S2. 23.05.16_大模型创业公司的成功理由:https://whjlnspmd6.feishu.cn/wiki/DhLzw7IqjiXNWukcsAbcAsVynUg
AI视频生成 (中)— 20个产品推荐及实践教学
AI视频生成(下)| 20个产品推荐及实践教学
语言大模型系列:搞懂语言大模型(番外):40+应用案例精选
商业创业:
看完Open AI创始人的斯坦福创业课,我学到了什么?
产品趋势:
产品趋势02期(上)|挑战Chrome的最强浏览器?Arc究竟牛在哪里?产品趋势02期(下)|盘点Arc中的设计细节、槽点和后续规划
