大辛庄陶片拼合挑战赛：利用人工智能的力量，拼接商代历史-BNBU Institute for Advanced Study

大辛庄陶片拼合挑战赛：利用人工智能的力量，拼接商代历史

主办单位：

北师香港浸会大学高等研究院

山东大学考古学院（文化遗产研究院）

一、竞赛概述

你是否想过，人工智能可以如何揭开失落文明的秘密？现在，这个时刻来了！我们隆重推出“大辛庄陶片拼合AI挑战赛” - 一场融合尖端机器学习技术与商代考古的国际赛事，诚邀您一同开启科技赋能历史的新篇章。

想象成千上万的陶器碎片，每一片都铭刻着三千多年前的故事。考古学家们面临着一个艰巨的挑战：将这些碎片拼合成完整的器物，仿佛在解一个复杂且残缺的拼图。这一过程耗时数月甚至数年，成果却常常不尽如人意。

济南大辛庄遗址，商朝东方的重要聚落，为我们提供了这一挑战的舞台。2003年发掘的H690是一座直径5.2米、深4米的圆形储藏坑，后转为垃圾坑，内含14层堆积，出土了近20,000片陶器碎片、动物骨骼及珍贵的金箔残片。显示了其重要性与特殊性。因此，对H690出土陶器进行系统深入的研究，对于了解商王朝在大辛庄遗址的活动以及商族与本地东夷族的复杂互动具有极其重要的意义。

面对这么多陶片，怎么才能又快又好地把它们分类、拼好，从中找出更多的历史信息呢？这正是考古学界急需解决的难题。人工智能和深度学习技术无疑是当下最合适的方法之一，它们是处理大数据和识别模式的“超级武器” 。

我们诚挚地邀请全球的数据科学家、AI开发者、考古学家以及所有对文化遗产保护有浓厚兴趣的朋友们，一起来用先进的机器学习技术，开发出能够自动识别并精确匹配商代陶片连接关系的创新模型。这不仅仅是一场技术实力的巅峰对决，更是一次推动科技深度服务人文的实践！你将有机会接触并分析真实、充满挑战性的独一无二的考古数据；解决真正的考古难题，直接帮助考古学家高效地整理和分析珍贵文物，为历史研究提供前所未有的强大支持；拓展AI的应用范围，推动人工智能在考古以及文化遗产保护领域的深入用，为“计算考古学”这一新兴且充满潜力的领域注入蓬勃生机；搭建连接历史与未来的桥梁，你的智慧结晶，将不仅仅是冰冷的代码，它会成为连接尘封往事和现代科技的宏伟纽带。

期待你的加入，让我们一起揭开大辛庄陶片背后千年的秘密，用AI的力量重现商代的辉煌！

报名条件

全球数据科学家、AI爱好者和考古学者

个人或团队形式参赛，团队人数不超过5人

立即参与

登录kaggle.com/competitions/h690即可报名参与

咨询邮箱：h690@bnbu.edu.cn

二、核心挑战

本次挑战的核心使命是开发强大且创新的人工智能模型，能够解决以下关键问题：

1）断茬匹配拼合：将出土的陶片尽可能多地重新拼对起来。通过开发边缘特征设计算法，对断茬边缘形状几何匹配度进行计算，实现陶片邻接关系的自动推断，从而为原始器物复原奠定基础。

2）器形三维重建：将拼合起来的陶片尽可能按照原始器形复原。

为实现这些目标，我们建议参赛者首先对陶片进行智能分类，将出土的陶片按照陶质、陶色等进行分类，在拼对的过程中综合考虑陶片图像特征与元数据，如陶质、陶色、纹饰、器型部位等辅助拼对。我们鼓励参赛者探索各种创新方法，包括但不限于：

先进的图像分割和特征提取技术：精确描绘陶片边界，捕捉细微的纹理和纹饰细节。

深度度量学习 (Deep Metric Learning) 来学习陶片边缘特征的相似度。

图神经网络 (Graph Neural Networks) 建模陶片之间的关系，推断潜在连接关系。

多模态模型 (Multimodal Models)：结合陶片图像的视觉信息与结构化元数据，以实现更稳健的分类和匹配。

本次竞赛鼓励采用探索性而非限制性的问题解决方法，欢迎多样化和创造性的解决方案。

Kaggle平台鼓励采用探索性而非限制性的问题解决方法，欢迎多样化和创造性的解决方案。

三、数据

本次竞赛的数据来自大辛庄灰坑H690考古发掘出土的陶片，数据具有极高的科研价值且具有唯一性。

我们将提供大辛庄灰坑H690出土陶片的照片。一般是陶片的正面、背面各一张。所有照片均按照相同的相机设置和光照条件拍摄，尽可能还原和保留陶片的真实样貌。所有陶片和照片都有一个唯一的编号，并相互对应。陶片和照片的编号可以在提供的Excel表格中找到。照片分辨率为5952x4480像素，格式为高质量JPEG格式。每张照片均包含标准比例尺，用于尺寸参考。部分陶片可能存在严重风化、磨损或颜色失真；并非所有原始器物都能找到所有碎片。

陶片原始图像数据：sherd_images/ (陶片图像目录)：

每件陶片提供正反两面1024x1024像素高清图像，图像编号JDxxxxx_exterior 或者JDxxxxx_interior, JDxxxxx是对应的陶片编号，_exterior 指示陶片的外侧（正面）照片, _interior指示陶片的内侧（背面）照片。

参赛者应注意，由于数千年的埋藏，一些陶片可能表现出明显的风化、磨损、表面沉积物或颜色失真。此外，考古学中常见的情况是并非原始器物的所有碎片都能被找到（“并非所有原始器物都能找到所有碎片”）。稳健的模型应能处理这些现实世界中的不完美之处。

元数据：metadata / (陶片图像目录):

jd_sherds_info.csv是出土陶器和影像的基本数据。

(1) image_id:陶片影像编号，JDxxxxx_exterior, JDxxxxx是对应的陶片编号，_exterior 指示陶片的外侧（正面）照片；JDxxxxx_interior, _interior指示陶片的内侧（背面）照片。

(2) sherd_id: 陶片的唯一编号，JDxxxxx,其中JD代表Jinan Daxinzhuangxin,xxxxx - 是陶片的序列号。

(3) unit: 陶片出土层位或场景。L01-L14代表有明确L14出土层位；M代表出自H690，但是具体层位不明；Z代表是大口尊的陶片，层位不明。

(4) part: 陶片代表的陶器部位。

(5) type: 陶片归属的（或者可能的）陶器器型。

(6) image_side: 陶器的正反面，exterior代表正面，interior代表背面。

参考器形图像reference_shapes/ (参考器形目录):

包含从遗址出土或与该时期相关的完整陶器器形参考资料，包括完整器物照片和线图，它们用于理解器物形态，辅助模型设计。

提交样例sample_submission.csv (提交样例文件):

CSV文件，包含可拼合组流水号，每组可拼合陶片的正面、反面编号，以及拼合后的照片示例。

拼合组	陶片正面ID	陶片反面ID	拼合后照片示例
可拼合组1	JDxxxxx_exterior	JDxxxxx_interior
可拼合组1	JDxxxxx_exterior	JDxxxxx_interior
可拼合组2	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior
可拼合组3	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior
	JDxxxxx_exterior	JDxxxxx_interior

四、评估指标

使用算法利用陶片的边缘断茬、纹饰、陶质、陶色等标志性特征，将陶片尽可能多地拼合起来，并尽可能复原陶器的原始形状。每支参赛队伍正确拼合陶片的数量越多，器形复原越多，排名越靠前，最多者获胜。

本次竞赛的最终目标是开发能够准确识别尽可能多真实陶片连接的算法。在这方面的成功将直接促进原始器物形态的虚拟重建，为考古分析提供重要的见解。提交作品的评估将基于一系列旨在评估这一复杂任务不同方面的指标组合。

拼接准确度（70%）

该指标将评估预测的陶片间成对连接的正确性。参赛者将提交他们认为连接的 sherd_id 对。评委会会通过抽样进行人工核对。

器形完整度（15%）

拼合后可还原的陶器整体比例（基于参考器形对比）。该指标旨在奖励那些不仅找到正确的单个配对，而且有助于形成更大、更连续的原始器物片段的解决方案。

解决方案报告质量与创新性（15%）

模型鲁棒性与速度

可处理的陶片数量、运行时间等。

创新性与技术文档质量

模型构思创新度、代码规范性、说明文档完整性。

五、提交流程与格式

参加本次竞赛需要遵守特定的提交格式和技术指南，这些主要由Kaggle的代码竞赛框架决定。

提交文件：

1. 进行拼合所用源代码和说明模型实现细节的相关文档

2. 每组可以拼合陶片的照片及其编号

主要代码文件（Python或其他支持平台语言）

可运行脚本或Notebook（附示例数据路径）

拼合结果图像与配对列表（CSV或JSON）（参见提交样例）

三维模型文件（如有，可选）

技术说明文档（PDF）

六、时间轴

2025年7月26日-竞赛启动日期。

2025年11月25日-最终提交截止日期。

七、奖励

一等奖：10,000美金

二等奖：5,000 美金

三等奖：2,000美金

八、竞赛规则

外部数据 (External Data): 允许使用公开的预训练模型（如在ImageNet上训练的模型）。禁止使用其他未公开的考古陶片数据集。若使用任何外部数据，必须在代码注释或论坛中明确声明。

代码竞赛要求 (Code Requirements): 本次为代码竞赛，您必须通过Kaggle Notebook提交。禁止在Notebook外部进行模型训练和推断。

团队合并 (Team Mergers): 团队可以合并，合并截止日期通常在最终提交截止日期前一周，请关注竞赛官方通知。

团队人数 (Team Limits): 每支团队最多允许5名成员。

提交限制 (Submission Limits): 每支团队每天最多可以提交5次。

获奖资格 (Eligibility for Prizes): 获奖团队需要将其解决方案整理成文档，并确保代码可复现，以供主办方验证。

知识产权 (Intellectual Property): 参赛者保留其提交作品的知识产权。获奖者需授予主办方非排他性的许可，允许主办方将其解决方案用于研究、教育和宣传目的。

九、组委会

阮勇斌教授

浙江大学

数学高等研究院教授

汤涛教授

北师香港浸会大学

高等研究院学术委员会主任

吴臻教授

山东大学

常务副校长

周永明教授

北师香港浸会大学

学术副校长

方辉教授

山东大学

文化遗产研究院院长

屠长河教授

山东大学

计算机科学与技术学院教授

高大伦教授

山西大学

考古文博学院院长

竞赛解释权：主办方保留对竞赛规则的最终解释权。