36kr 08月29日
六款文生图AI模型横评
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文对腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image六款文生图AI模型进行了多维度测评。测评围绕基础美学与真实感、想象力与创意、指令理解与执行力、风格模仿与驾驭力、文化理解与概念表达五个方面展开,并结合具体Prompt和评分标准,详细分析了各模型的表现。结果显示,Gemini 2.5 Flash Image综合得分最高,表现出色。文章深入探讨了AI作图的底层逻辑,指出AI并非基于逻辑推理,而是通过概率降噪生成图像,并分析了其在处理概念融合、指令执行和风格模仿等方面的局限性,强调AI目前更像是“概率的引导者”。

🎨 **基础美学与真实感评估**:在“傍晚阳光下的少女”这一Prompt下,即梦和可灵表现出色,接近完美。腾讯混元和智谱生成的皮肤质感过于光滑,雀斑分布刻意;通义千问则在人物手部比例和形态上存在明显瑕疵,缺乏写实感;Gemini 2.5 Flash Image皮肤质感虽细腻,但写实感仍有提升空间。整体而言,模型在人物塑造方面表现尚可,但细节处理仍需优化。

🌌 **想象力与创意挑战**:面对“星云构成的雄狮”的抽象概念,AI普遍面临挑战。腾讯混元理解为宇宙雕像,智谱生成了实体狮子,通义千问则为实体狮子与星云的混合。即梦虽有科幻感但非星云构成,Gemini的狮子实体不透明。可灵在本轮表现最佳,成功实现了狮子与星云的融合,展现了较强的创意能力,但AI在处理现实中不存在的事物时,概念理解和融合能力仍有待加强。

✅ **指令理解与执行力检验**:在“水果篮里的数学题”这一简单指令上,仅智谱、通义千问和Gemini 2.5 Flash Image准确完成了数量要求。即梦和可灵在苹果数量上出错,腾讯混元问题较多。这揭示了AI并非按人类逻辑计数,而是将数字视为“构图特征”,其学习过程依赖于不完全精确的数据,目标是生成最接近“三个苹果”的图像,而非精确等于3。

🖌️ **风格模仿与驾驭力测试**:对于“水墨风的机甲”指令,Gemini 2.5 Flash Image表现最佳,成功呈现了山水画风格。通义千问的机甲有气势但为素描风格;即梦为写实数字绘画;可灵风格割裂,混入了日式机甲;腾讯混元和智谱则未能实现水墨风格,且对“机甲战士”的理解有偏差,画成了古代武士。AI在模仿特定风格方面仍有局限,做到“形似”已属不易。

🏮 **文化理解与概念表达力**:在“中秋佳节的汉服少女”场景下,Gemini和可灵得分最高,对汉服、月亮、灯笼等文化元素理解准确。即梦和通义千问在美观度和氛围上成功,但汉服结构模糊。智谱采用了动漫风格,文化复现肤浅。腾讯混元虽美观但服饰结构错误,存在文化混淆。AI在文化表现上存在差异,顶级模型能准确传达文化信息,部分模型可能加剧文化误解。

AI的渗透正无远弗届。正如很多插画网站,添加“AI生成”标签已是标配。

从艺术角度看,AI生成的图片,似乎争议依然巨大。但不得不承认的是,在工作和学习中,AI图片生成却是一个提高效率的好办法。

目前,多模态大模型领域中,支持文生图的模型数量正在指数级增长。

为了解决大家的“选择困难症”,这次我们选择了6个模型进行测评。

参赛选手如下:

腾讯混元、智谱CogView-4、通义千问、即梦、可灵和Gemini 2.5 Flash Image。

其中,前段时间在LMarena上爆火的模型nano-Banana,据说吊打一切文生图模型。

现在也已经“验明正身”,正是8月27日Google发布的Gemini 2.5 Flash Image。

在测评前,先叠个甲:

对美术方面,实在是一窍不通。

因此,我们不谈复杂的理论,也不聊晦涩的美术史。

只是以一个普通人的视角,借助AI给出的评分标准,来评价一下到底“好不好看”。一家之言,仅供参考。

01 第一维度:基础美学与真实感

考验目标:AI的基本画功,好不好看、真不真实。

题目:傍晚阳光下的少女

Prompt: 超写实照片,一个有雀斑的年轻女子,面带微笑,在黄金时刻坐在窗边,温暖的阳光穿过她的头发,电影感光线,8K,高细节。

评分标准:

测评结果:

腾讯:人物的皮肤质感过于光滑,仅有微小瑕疵。

智谱:皮肤过于光滑,雀斑形状和分布过于均匀和刻意,属于明显瑕疵。

千问:双手比例和形态非常不自然,完全没有写实感,“一眼AI”,属于明显瑕疵。

即梦和可灵:非常出色,接近完美,不愧是“专业画手”。

Gemini:皮肤质感过于光滑细腻,写实感还是差了一些。

总体来说,对于人物的塑造,各个AI还是比较拿手的。

虽然有些模型生成的图片略有瑕疵,但整体观感不错。

02 第二维度:想象力与创意

考验目标:AI的脑洞有多大,对于现实中不存在的事物的创造能力。

题目:星云构成的雄狮

Prompt: 一头雄伟的狮子,由旋转的星系和星云雕刻而成,宇宙尘埃构成了它的鬃毛,眼睛是闪烁的恒星,背景是深邃的宇宙。

评分标准:

测评结果:

这一轮的题目看来对AI难度有点高了。

腾讯:第一眼看上去很华丽,很有气势,但似乎理解出现了一些偏差。这并非一个由星云构成的生命体,而是一尊宇宙材质的宏伟雕像。

智谱:生成了一个宇宙背景下的实体狮子,完全彻底的概念性跑偏。

千问:“半神半兽”的感觉,实体狮子与星云的混合,离要求还是有一定差距。

即梦:科幻感十足,但狮子身体仍然是实体而不是星云构成的,观感有一定新意。

可灵:本轮的最佳选手,视觉效果很好,实现了与星云的融合。

Gemini:狮子的实体也是不透明的,不过神韵、气质和细节都还不错。

看来,对于现实中不存在的事物,AI出现概念理解错误的几率会大大增加,而想象能力也是目前模型有所欠缺的地方。

可能的原因也比较多,例如训练数据存在一定的局限性、对物理世界存在路径依赖或是概念融合能力的欠缺。

03 第三维度:指令理解与执行力

考研目标:AI听不听话,能不能正确遵从指令。

题目:水果篮里的数学题

Prompt: 一个木碗里装着三个红苹果和两个黄香蕉,放在一张白色的桌子上。

评分标准:

测评结果:

这肯定是人类眼中最简单的一道题,但对AI来说难度可不低。

六个模型中,只有智谱、千问和Gemini正确完成了如此“简单”的指令。

即梦和可灵都搞错了苹果的数量,而混元更是漏洞百出。

根据这一轮的结果,我们也可以得到一个推断:

AI生图模型并非按照我们的数学概念和美术流程来工作。

或者说,它并不是按照我们最直接的思路,画一个苹果,再画一个香蕉,直到数目符合要求。

指令中的3这个数字,对AI来说,并不代表一个精确的数量,而是一个需要渲染的“构图特征”。

而在向量空间中,“三个苹果”和“四个苹果”可能是非常接近的。

同时,我们也无法得知提供给上述AI的训练集到底是什么样的。

但是,标签肯定是做不到完全精准的,AI只能长时间在海量但又不完全精确的数据中学习。

AI的最终目标,是让生成的图片最接近于它见过的“三个苹果”,而不是“让生成的苹果数量等于3”。

04 第四维度:风格模仿与驾驭力

考验目标:AI模仿特定的艺术家或艺术流派的能力。

题目:水墨风的机甲

Prompt:一个巨大的中国古代机甲战士,站立在云雾缭绕的山谷中,中国传统水墨山水画风格。

评分标准:

测评结果:

又是一道有点抽象的题目。

表现最好的是Gemini,实打实绘制出了山水画风格,大体符合要求。

千问生成的机甲看起来确实气势磅礴,细节处理也很到位,但很明显,这是素描而不是水墨风格,只能说是“有形无神”。

即梦生成的图片也并非水墨画,而是带有写实感的数字绘画,更像是个游戏的概念设计图。

可灵则发挥了优秀的拼接能力,在水墨风格的背景中插入了日式机甲,风格完全割裂。

混元和智谱生成的图片则有些奇怪,水墨画风格没实现的同时,也没理解“机甲战士”这个主体,画中人更像是个古代武士,完全偏离了题目要求。

如此看来,AI尚且不具备完全模仿某个艺术家或艺术流派的能力,能够做到“形似神不似”就实属不易。

05 第五维度:文化理解与概念表达

考验目标:AI能否理解特定的文化以及是否能够表达抽象的概念。

题目:中秋佳节的汉服少女

Prompt:一位美丽的年轻女孩,身穿中国传统汉服,庆祝中秋节,她手持一个精致的兔子灯笼,身后是明亮的满月。

评分标准:

测评结果:

Gemini和可灵都拿下了相当高的分数,展现出了较高的文化素养。

对于汉服的概念理解比较深刻,而月亮、灯笼、园林等文化元素也都齐全。

推测其训练数据中,中国传统文化的相关素材标注是比较准确的。

两家模型的算法能够把“汉服”等关键词正确关联到视觉特征上。

即梦和千问在美观度和氛围塑造上也很成功,不过汉服的结构有些模糊。

尽管这种古风画作可能意味着AI对于服饰历史知识的了解程度不够深刻,但满足“好看”这一要求仍然不在话下。

智谱生成的则是唯一采用了动漫风格的图片,对历史文化的复现程度显然是太浅了。

混元生图看似美观,但在服饰结构上有比较明显的错误,即一定程度上的文化混淆。

因此,AI在文化表现上也是存在“双刃剑”效应的。

顶级AI具备相当可观的文化知识,对于传播、创作优秀传统文化会有很大的帮助。

而部分AI还存在“刻板印象”,受到低质量数据的影响,反而会加剧大众的文化误解。

06 总评

本次测评的总分如下:

Gemini:44分

可灵:40分

即梦:39分

千问:38.5分

智谱:33.5分

腾讯:28.5分

从效果上来看,千问、即梦、可灵和Gemini的文生图效果都是很不错的。

尤其是前身为nano-Banana的Gemini 2.5 Flash Image,拿到了最高的分数,证明了它并非浪得虚名。

不过,我们的核心目标还是要透过现象看本质。

人们总是惊叹于AI的“创造力”,它足够以假乱真,绘画水平也超越了大部分人。

但事实上,AI输出的图片,并非源于类似人类的灵感或意图。

AI作画,并非像一个画手一样,从一张白纸开始一笔一笔画出事物。

而是从一张充满随机噪声点的“混沌画布”开始,根据提示词进行降噪。

也就是说,AI作图并非基于逻辑推理,而是基于概率。

对于苹果生成数量的错误,可能就是因为“构成一幅和谐的水果静物图”这个在训练数据中频繁出现的指令,其概率权重超过了“3”这个脆弱的数字符号。

对于星云和狮子之间的挣扎,与“狮子”相关的像素模式可能是“实体”和“毛发”,而与“星云”相关的则是“气体”和“半透明”。AI无法同时满足两个相互矛盾的概率分布,因此降噪过程就无法成功。

对于水墨风的机甲,则可能是AI背后的数据库在发挥作用。如果数据库中有大量“水墨”、“机甲”等高质量的标签,降噪过程也会被顺利引导至一个高质量的概率空间。

简单的来说,AI不是在根据指令绘画,而是根据知识储备,试图通过降噪给出最可能符合指令的图像。

至于错误,文生图是一个很复杂的过程,很遗憾,我们无法确切得知问题出在哪一环节。

也因此,至少目前为止,我们并不是“创作者”,而是“概率的引导者”。

本文来自微信公众号“硅基星芒”,作者:思齐,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI绘画 文生图 模型评测 Gemini 通义千问 可灵 即梦 智谱 腾讯混元 AI技术 深度学习 人工智能
相关文章