商汤科技联合创始人林达华在其深度文章《迈向多模态通用智能》中,阐述了发展多模态智能的底层逻辑、技术路径与未来方向。他指出,AI的核心在于与世界的自主交互能力,而语言只是智能演进的产物而非本源。林达华强调,仅靠语言模型难以实现通用人工智能(AGI),AI下一阶段的突破需要超越语言,回归智能的本质——与世界的交互。他认为,AI要实现通用性,必须具备像人类一样的多模态信息感知与处理能力,将原始信息转化为可计算的内部表征,这是迈向AGI的必由之路。
🌟 AI的核心目标是通过计算构建智能,而智能的关键在于与外界进行自主交互的能力,这涵盖了感知、推理、决策、学习等多个维度。
🗣️ 语言是人类智能演进过程中的一种产物和描述世界的工具,但并非智能的本源。林达华认为,单靠语言模型无法构建真正意义上的通用人工智能(AGI)。
🚀 大语言模型是迈向AGI的重要一步,但随着文本语料的饱和,AI的下一阶段突破将必然要求其超越语言,回归智能的本质——即与世界的交互。
👁️ AI要具备通用性,必须能够像人类一样运用感官接收信息,并将原始模态转化为可计算的内部表征。多模态信息感知与处理能力是AGI的核心要求,也是从语言模型走向AGI的必经之路。
IT之家 8 月 13 日消息,商汤科技联合创始人、执行董事、首席科学家林达华在 8 月 12 日发布了深度文章《迈向多模态通用智能:商汤的思考》,阐释了发展多模态智能的底层逻辑、技术路径、实践探索与未来方向。

林达华提到,AI 的核心目标是通过计算来构建智能,而智能是一个复杂的多维度概念,其核心就是与外界(包括世界或者其他人)进行自主交互的能力,可以被归纳为包括感知、推理、决策、学习等多种能力维度。
同时他表示,语言只是人类智能演进过程中的一种产物,不是智能的本源;语言是描述世界的工具,但不是世界本身。他还表示:“单靠语言模型并不能构建真正意义的 AGI”。

林达华还指出,大语言模型是朝着 AGI (IT之家注:通用人工智能)迈出的重要一步,但随着现存的文本语料终有一天会被 AI 吸收殆尽,AI 下一阶段的突破必然要超越语言,回到智能的本源 —— 和世界的交互。
他认为,AI 若要具备通用性则必须能像人类一样用感官接收信息,将原始模态转化为可计算的内部表征。他写道:“多模态信息感知与处理的能力是 AGI 的核心要求,也是从语言模型迈向 AGI 的必由之路”。