本文探讨了文字与图像在信息量上的相对优势,指出普通图像可能因人类难以察觉细节而信息量受限,而文字则能承载更抽象的概念和长推理。文章强调,信息量的评估应超越人类先验,并以高智外星人视角为例,说明真实图像蕴含的巨大信息潜力。同时,也指出现有AI生成图像的“伪细节”问题。最后,作者提出,跨模态的联系本质上是隐喻,并预测未来多模态AI将趋于统一,共同应对深水区的挑战。
💡 信息量视角:文章认为,传统观念中图像比文字信息量大的观点需要辩证看待。虽然普通图像包含大量细节,但人类可能难以从中发现错误或提取关键信息。文字则在承载抽象概念和进行长推理方面具有优势,但其信息量同样受限于表达方式。
👽 外星视角与信息量:从高智外星人的角度看,一张看似普通的地球城市照片可能蕴含爆炸性的信息量,因为他们可以建立高精度的地球模型进行定位和分析。这说明信息量评估应跳出人类的先验认知,真实图像的潜力巨大。
🤖 AI的“伪细节”与跨模态挑战:当前AI生成的“看似真实”的图片,可能包含“伪细节”来欺骗人类的眼睛,而非真正的信息丰富。AI作为“外星人”,虽然接收了大量数据,但仍可能“搞不懂”人类世界的复杂性,这反映了跨模态理解的本质挑战。AI需要更通用的模拟能力来理解不同文明的轨迹。
🧠 模态融合与未来趋势:作者提出,文字更关乎思维,图像更关乎现实。但未来,所有模态(文字、图像、视频、具身等)将趋于统一水平,因为低垂的果实将被摘完,迎来更深层次的挑战。CNN在处理图像方面有潜力,未来CNN与LLM的结合也可能成为一种工作方式。
原创 PENG Bo 2025-09-13 18:39 广东
本篇接前篇(理解LLM系列:Transformer和新RNN的真正区别,non-parametric vs parametric)。

💡Tips转自知乎用户 PENG Bo,原文链接:
https://zhuanlan.zhihu.com/p/1950187281827734305
本篇接前篇(理解LLM系列:Transformer和新RNN的真正区别,non-parametric vs parametric)。
二、文字vs图像从前某个时候,不少人认为图像比文字更有信息,基于朴素的比特率观点。过了一段时间,很多人认为文字比图像更有信息,例如文字可做长推理。其实,文字和图像各有所长。普通图像有个缺点:即使有错,人难以发现,或者说,普通图像里“人关心的”信息少。而且,文字中的许多抽象概念,似乎无法用图像忠实表示。虽然可以隐喻。说到底,一切跨媒介的联系,都是隐喻。但是,真实图像,实际有很高信息量。我们讨论信息量,必须跳出人类先验。例如,如果拍一张平平无奇的地球城市照片,拿给高智外星人看,信息量就爆棚了,值得外星人逐像素反复分析。这就像图寻。如果建立了地球的完整高精度实时模型,只要是稍微有点内容的照片,就能精确定位到地球的任意位置。所以现在大模型会去炼这种数据,希望建立隐地球模型。另一个有趣问题是,如果将现在AI生成的“看似真实”的图片发给外星人,外星人会得出哪些结论?No Free Lunch,现在的AI只能骗人眼,而且由于RL,AI会用各种技巧和“伪细节”去骗人眼。举个信息丰富的例子。问:下图来自宇宙某个星球,请推理此星球大气的构成。
这问题很难,因为你不能用地球先验和人类先验。朴素的想法,是试图分析图像特征,但这完全行不通,因为,作为外星人,你看不懂这里的东西。例如,这里的光,哪些是“自然的”,哪些是“人造的”,来自什么物理和化学效应?你难以判定。所以,正确的方式是,先模拟宇宙智能文明的所有轨迹,以此分析图中一切事物最可能是什么(例如,是否是某种“仪式”?如果外星人没有“仪式”,模拟是否足够通用和真实,以至于能模拟出某些智能文明会有“仪式”?),再以此为基础,做物理和化学的分析。这已是极简化,限定为分析同一个宇宙的另一个星球。现在的AI,就像一个来自其它宇宙,存在形态也完全不同的外星人。虽然我们发给它很多数据,还设计了很多数据教它(其实数据还有很大进步空间,例如通过大规模模拟,现在agent合成数据已经在做小规模模拟),它依然似懂非懂,“搞不懂你们地球人的玩意”。这是一个本质的问题。