深入理解大模型：文字与图像信息量及AI跨模态挑战

RWKV元始智能 09月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文探讨了文字与图像在信息量上的相对优势，指出普通图像可能因人类难以察觉细节而信息量受限，而文字则能承载更抽象的概念和长推理。文章强调，信息量的评估应超越人类先验，并以高智外星人视角为例，说明真实图像蕴含的巨大信息潜力。同时，也指出现有AI生成图像的“伪细节”问题。最后，作者提出，跨模态的联系本质上是隐喻，并预测未来多模态AI将趋于统一，共同应对深水区的挑战。

💡 信息量视角：文章认为，传统观念中图像比文字信息量大的观点需要辩证看待。虽然普通图像包含大量细节，但人类可能难以从中发现错误或提取关键信息。文字则在承载抽象概念和进行长推理方面具有优势，但其信息量同样受限于表达方式。

👽 外星视角与信息量：从高智外星人的角度看，一张看似普通的地球城市照片可能蕴含爆炸性的信息量，因为他们可以建立高精度的地球模型进行定位和分析。这说明信息量评估应跳出人类的先验认知，真实图像的潜力巨大。

🤖 AI的“伪细节”与跨模态挑战：当前AI生成的“看似真实”的图片，可能包含“伪细节”来欺骗人类的眼睛，而非真正的信息丰富。AI作为“外星人”，虽然接收了大量数据，但仍可能“搞不懂”人类世界的复杂性，这反映了跨模态理解的本质挑战。AI需要更通用的模拟能力来理解不同文明的轨迹。

🧠 模态融合与未来趋势：作者提出，文字更关乎思维，图像更关乎现实。但未来，所有模态（文字、图像、视频、具身等）将趋于统一水平，因为低垂的果实将被摘完，迎来更深层次的挑战。CNN在处理图像方面有潜力，未来CNN与LLM的结合也可能成为一种工作方式。

原创 PENG Bo 2025-09-13 18:39 广东

本篇接前篇（理解LLM系列：Transformer和新RNN的真正区别，non-parametric vs parametric）。

💡Tips
转自知乎用户 PENG Bo，原文链接：
https://zhuanlan.zhihu.com/p/1950187281827734305

本篇接前篇（理解LLM系列：Transformer和新RNN的真正区别，non-parametric vs parametric）。

二、文字vs图像

从前某个时候，不少人认为图像比文字更有信息，基于朴素的比特率观点。

过了一段时间，很多人认为文字比图像更有信息，例如文字可做长推理。

其实，文字和图像各有所长。

普通图像有个缺点：即使有错，人难以发现，或者说，普通图像里“人关心的”信息少。

而且，文字中的许多抽象概念，似乎无法用图像忠实表示。虽然可以隐喻。说到底，一切跨媒介的联系，都是隐喻。

但是，真实图像，实际有很高信息量。我们讨论信息量，必须跳出人类先验。

例如，如果拍一张平平无奇的地球城市照片，拿给高智外星人看，信息量就爆棚了，值得外星人逐像素反复分析。

这就像图寻。如果建立了地球的完整高精度实时模型，只要是稍微有点内容的照片，就能精确定位到地球的任意位置。所以现在大模型会去炼这种数据，希望建立隐地球模型。

另一个有趣问题是，如果将现在AI生成的“看似真实”的图片发给外星人，外星人会得出哪些结论？No Free Lunch，现在的AI只能骗人眼，而且由于RL，AI会用各种技巧和“伪细节”去骗人眼。

举个信息丰富的例子。问：下图来自宇宙某个星球，请推理此星球大气的构成。

关注我们：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签