RWKV元始智能 09月13日
深入理解大模型:文字与图像信息量及AI跨模态挑战
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了文字与图像在信息量上的相对优势,指出普通图像可能因人类难以察觉细节而信息量受限,而文字则能承载更抽象的概念和长推理。文章强调,信息量的评估应超越人类先验,并以高智外星人视角为例,说明真实图像蕴含的巨大信息潜力。同时,也指出现有AI生成图像的“伪细节”问题。最后,作者提出,跨模态的联系本质上是隐喻,并预测未来多模态AI将趋于统一,共同应对深水区的挑战。

💡 信息量视角:文章认为,传统观念中图像比文字信息量大的观点需要辩证看待。虽然普通图像包含大量细节,但人类可能难以从中发现错误或提取关键信息。文字则在承载抽象概念和进行长推理方面具有优势,但其信息量同样受限于表达方式。

👽 外星视角与信息量:从高智外星人的角度看,一张看似普通的地球城市照片可能蕴含爆炸性的信息量,因为他们可以建立高精度的地球模型进行定位和分析。这说明信息量评估应跳出人类的先验认知,真实图像的潜力巨大。

🤖 AI的“伪细节”与跨模态挑战:当前AI生成的“看似真实”的图片,可能包含“伪细节”来欺骗人类的眼睛,而非真正的信息丰富。AI作为“外星人”,虽然接收了大量数据,但仍可能“搞不懂”人类世界的复杂性,这反映了跨模态理解的本质挑战。AI需要更通用的模拟能力来理解不同文明的轨迹。

🧠 模态融合与未来趋势:作者提出,文字更关乎思维,图像更关乎现实。但未来,所有模态(文字、图像、视频、具身等)将趋于统一水平,因为低垂的果实将被摘完,迎来更深层次的挑战。CNN在处理图像方面有潜力,未来CNN与LLM的结合也可能成为一种工作方式。

原创 PENG Bo 2025-09-13 18:39 广东

本篇接前篇(理解LLM系列:Transformer和新RNN的真正区别,non-parametric vs parametric)。

💡Tips

转自知乎用户 PENG Bo,原文链接:

https://zhuanlan.zhihu.com/p/1950187281827734305

本篇接前篇(理解LLM系列:Transformer和新RNN的真正区别,non-parametric vs parametric)。

二、文字vs图像

从前某个时候,不少人认为图像比文字更有信息,基于朴素的比特率观点。

过了一段时间,很多人认为文字比图像更有信息,例如文字可做长推理。

其实,文字和图像各有所长。

普通图像有个缺点:即使有错,人难以发现,或者说,普通图像里“人关心的”信息少。

而且,文字中的许多抽象概念,似乎无法用图像忠实表示。虽然可以隐喻。说到底,一切跨媒介的联系,都是隐喻。

但是,真实图像,实际有很高信息量。我们讨论信息量,必须跳出人类先验。

例如,如果拍一张平平无奇的地球城市照片,拿给高智外星人看,信息量就爆棚了,值得外星人逐像素反复分析。

这就像图寻。如果建立了地球的完整高精度实时模型,只要是稍微有点内容的照片,就能精确定位到地球的任意位置。所以现在大模型会去炼这种数据,希望建立隐地球模型。

另一个有趣问题是,如果将现在AI生成的“看似真实”的图片发给外星人,外星人会得出哪些结论?No Free Lunch,现在的AI只能骗人眼,而且由于RL,AI会用各种技巧和“伪细节”去骗人眼。

举个信息丰富的例子。问:下图来自宇宙某个星球,请推理此星球大气的构成。

这问题很难,因为你不能用地球先验和人类先验。

朴素的想法,是试图分析图像特征,但这完全行不通,因为,作为外星人,你看不懂这里的东西。例如,这里的光,哪些是“自然的”,哪些是“人造的”,来自什么物理和化学效应?你难以判定。

所以,正确的方式是,先模拟宇宙智能文明的所有轨迹,以此分析图中一切事物最可能是什么(例如,是否是某种“仪式”?如果外星人没有“仪式”,模拟是否足够通用和真实,以至于能模拟出某些智能文明会有“仪式”?),再以此为基础,做物理和化学的分析。

这已是极简化,限定为分析同一个宇宙的另一个星球。

现在的AI,就像一个来自其它宇宙,存在形态也完全不同的外星人。虽然我们发给它很多数据,还设计了很多数据教它(其实数据还有很大进步空间,例如通过大规模模拟,现在agent合成数据已经在做小规模模拟),它依然似懂非懂,“搞不懂你们地球人的玩意”。这是一个本质的问题。

言归正传。很久以前我也说,给一页书拍张照分析,这也是CV,或许该称为very-high-level CV?

倒过来,带图片的书,用文字怎么精确描述复杂图片?此时自然语言就不方便。如果都tokenize说是NLP,那么也可以都变成像素说是CV。

结果,实质是Transformer/RNN vs CNN之争。我认为CNN LLM也可以work,以后如果有空搞搞。

如果总结,文字更关乎思维,图像更关乎现实。各个领域的深水区都难。

我从很久以前就说,所有模态(文字,图像,视频,游戏,具身,...)会趋于同一水平,因为我们会摘完低垂的果实,然后,就是深水区。

关注我们:

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 LLM Transformer RNN 文字 图像 信息量 跨模态 AI 深度学习 Large Models Text Image Information Quantity Cross-Modal AI Deep Learning
相关文章