智源社区 11月07日 23:22
AI助力考古:首个古希腊陶罐3D问答数据集与模型问世
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北京大学团队发布了全球首个面向古希腊陶罐的3D视觉问答数据集VaseVQA-3D及专用视觉语言模型VaseVLM,标志着AI从“识图机器”向“文化考古Agent”的转变。传统VLM在处理文化遗产复杂对象时表现不足,主要因缺乏高质量专业数据。该研究通过2D图像筛选、3D模型转换(GLB格式)及GPT-4o增强问答,构建了包含664个3D陶罐模型和4460条考古问答的数据集,涵盖材质、工艺、形制等六大核心属性。基于此,VaseVLM在多项任务上显著超越现有模型,准确率和学术性大幅提升,为数字考古提供了新路径。

🏺AI迈向文化考古Agent:北京大学推出的VaseVQA-3D数据集和VaseVLM模型,是全球首个针对古希腊陶罐的3D视觉问答系统,使AI能够理解和分析复杂的文化遗产对象,超越了仅能描述日常图像的传统VLM,为AI在文化遗产领域的应用开辟了新篇章。

📊高质量数据构建:该研究团队通过严格的2D图像筛选(ResNet-50质检、CLIP语义过滤、多视角选优)和TripoSG技术,将3万多张2D照片转化为664个高保真的3D GLB模型,并利用GPT-4o生成了4460组考古问答数据,全面覆盖了陶罐的材质、工艺、形制、年代、装饰和归属等六大核心属性,解决了专业领域数据缺乏的难题。

🚀VaseVLM模型性能卓越:基于Qwen2.5-VL基底,VaseVLM通过监督微调和“可验证奖励机制”的强化学习,在360°旋转视频和考古描述训练下,能够进行维度化的专业分析。在多项Vase-3D视觉问答任务中,其准确率提升显著,专家评分高达4.57/5,生成描述更加自然且学术准确,远超通用大模型。

🌐未来展望与应用:该项目不仅为古希腊陶罐的研究提供了强大工具,还计划将技术扩展到更多文化遗产领域,并探索更完善的数字遗产展示形式,为数字考古学提供创新的技术路径和方法论。

现在AI都懂文物懂历史了。

一项来自北京大学的最新研究引发关注:他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D,并配套推出了专用视觉语言模型VaseVLM

这意味着,AI正在从“识图机器”迈向“文化考古Agent”。

传统视觉语言模型(VLM)如GPT-4V、Gemini等,擅长描述日常图像,在开放域视觉理解方面效果显著,但在面对文化遗产类复杂对象时——它们几乎“一脸茫然”。受限于训练数据的领域覆盖和语义建模能力,其对复杂纹饰、器形及文化背景的理解仍存在明显不足。

为什么?因为缺乏高质量、结构化的专业数据。

此次,北大牵头团队带来了突破性解决方案。

AI首次“看懂”古希腊陶罐

以往的视觉语言模型(VLM)如CLIP、LLaVA、GPT-4V等,虽然能识别日常图片,却在文化遗产这类专业领域失灵。

北大团队指出:“AI能认猫狗,却认不出陶罐的时代、风格与技法。”

于是他们构建了一个庞大的新基座VaseVQA-3D。




VaseVQA-3D中的陶罐3D模型与问答示例:每个模型都能被AI“旋转、观察、回答”

从现有资源里找了3万多张古希腊陶器的2D照片,先通过:
    ResNet-50质检:去掉模糊与残缺图像;
    CLIP语义过滤:识别“碎片”与“完整器物”;
    多视角选优:自动挑选最佳视角图像。三道筛选,留下3880张高质量的;

再用TripoSG技术把这些2D图转成664个高保真的GLB模型(像真的陶器一样能看前后上下);

最后还通过GPT-4o生成问答与增强描述,配了4460组「问题-答案」(比如 “这个陶器的制作工艺是什么?”“是黑绘工艺”),甚至给每个3D模型写了详细说明。

为了保证3D模型质量,专门挑了24个高质量3D陶器当标准样板,用来检验生成的3D模型好不好。

总结下来就是:

    664个高保真3D古希腊陶罐模型(GLB格式)
    4460条考古问答数据
    完整的2D→3D生成与质检流程
    涵盖陶罐六大核心属性:材质、工艺、形制、年代、装饰、归属

VaseVLM:懂考古的视觉语言大模型

有了数据,团队进一步训练了专用模型 VaseVLM

以Qwen2.5-VL为基底,通过两阶段强化:

    阶段一:SFT监督微调 —— 用360°旋转视频+考古描述训练基础识别能力
    阶段二:RLVR强化学习 —— 将考古知识拆分为六个语义维度(Fabric、Technique、Shape、Dating、Decoration、Attribution),AI会每个维度根据回答得到奖励。

这种“可验证奖励机制”让模型的回答更专业、更贴近学术标准。

RLVR奖励机制:AI像考古学家一样分维度分析陶罐特征

在多项Vase-3D视觉问答任务上,VaseVLM的表现大幅超越现有模型。
相比最强基线模型,VaseVLM在R@1准确率提升12.8%;词汇相似度提升 6.6%;专家人工评分平均达4.57/5(10位考古专家评分)。

VaseVLM生成的描述更自然、学术准确,显著优于通用大模型。

未来,该项目计划拓展到更多文化遗产领域,并建立更完善的数字遗产展示形式,为数字考古提供全新技术路径。

论文原文:https://arxiv.org/abs/2510.04479
官方网站: https://aigeeksgroup.github.io/VaseVQA-3D
代码开源: https://github.com/AIGeeksGroup/VaseVQA-3D
数据集:https://huggingface.co/datasets/AIGeeksGroup/VaseVQA-3D

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 考古 古希腊陶罐 3D视觉 视觉语言模型 数字遗产 文化遗产 AI Archaeology Ancient Greek Vases 3D Vision Visual Language Model Digital Heritage Cultural Heritage
相关文章