道哥的黑板报 09月12日
AI桌面控制技术demo披露
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文披露了KMind在18个月前给投资人看的AI桌面控制技术demo,展示了AI自动控制工作流、编排工具的能力。该技术通过截屏和图像模式识别,让AI理解图形软件界面功能,实现更通用的控制方式。文章还讨论了AI与RPA结合盘活单机软件、工具自动学习等议题,并祝贺Anthropic在AGI道路上的进展。

🤖 AI自动控制工作流、编排工具的能力,通过截屏和图像模式识别,让AI理解图形软件界面功能,实现更通用的控制方式。

💻 AI与RPA结合,能够盘活PC时代留下的几百万个单机软件,实现对于工具的自动编排,进一步放大AI的价值。

📚 在kOS架构里留有“Tools Library”,未来计划实现工具的自动学习(ATL,Automatic Tools Learning),让AI自动学习工具的功能和用法。

🚀 18个月前超前思考的技术demo,如今随着AI发展日新月异,终于可以披露并回顾当时的技术思考。

🎉 祝贺Anthropic在AGI道路上的进展,KMind也找到了自己的方向,将坚定执行自己的战略。

2024-10-25 12:54 浙江

最近Anthropic的Claude大火,发布了一个通过AI操作电脑桌面的能力。我很开心的终于有人做这个了。那我就披露一个在18个月前(看了下视频的时间是2023年5月10日)我们给投资人看的一个技术demo吧。时至今日已经将近一年半时间了,AI的发展真是日新月异啊。

熟悉我们的朋友应该知道,我们的第一代产品魁星是一个Chatbot,我给它的定位是Copilot。实际上当时我们还研发了第二个产品,我称之为Autopilot,就是视频里演示的这个。


做这个Autopilot的原因出于几个:


首先,我不想去卷基础大模型,同时我意识到在基础大模型之上应该还有个东西,来解决大模型精度不足的问题。现在业界的发展不管是GPT-o1还是Claude,基本上都印证了我的想法。实现让AI自动控制工作流、编排各种工具,是这一层的工作。最近ComfyUI这些工具出来,都是在往这个方向发展。

其次,通过AI和RPA(自动化流程机器人)结合,能够盘活PC时代留下的几百万个单机软件,这是笔巨大的财富。实现对于工具的自动编排,就能进一步放大AI的价值。出于这个考虑,我们在kOS架构里还留了一个“Tools Library”,未来要做工具的自动学习(ATL,Automatic Tools Learning),很多人没问过我这个是什么(注意右下角),其实根源在这里。

最后,视频里的demo是通过调用了软件的一些API,已经通过控制键盘鼠标的特定坐标来实现的,这依然是一个专家系统。当时思考了一个更通用的实现方式:通过截屏,来实现对屏幕图像的模式识别,从而结构化一个图形软件的界面功能,让AI理解每个button的作用。这件事情恰恰就是今天Claude在做的。当然这件事情需要很多钱。


18个月前,我的这些想法太超前,很多人不理解,现在时过境迁,终于可以披露18个月前的一些技术思考,可以回头说说了。祝贺Athropic,希望他们在AGI的道路上继续前进。而我们KMind也已经找到了自己的方向,有自己的战略,将坚定的执行下去。


BTW:“快找找”的App已经在各大应用市场上架,大家可以下载了。出于我们运营策略的考虑,我们接下来不会再做任何产品的PR了。谢谢所有关心、信任我们的人。我们继续努力!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI桌面控制 KMind Anthropic RPA 自动工具学习
相关文章