维苏威火山喷发留下的碳化纸草卷,又被 AI 往前推进了一步。
据 CNN 和 Guardian 等媒体报道,研究者借助高分辨率 X 射线扫描、计算机视觉和机器学习方法,从一卷被火山热浪烧焦、无法物理展开的赫库兰尼姆纸草卷中读出了更多文字。这卷纸草编号为 PHerc 1667,来自古罗马赫库兰尼姆遗址,距今约 2000 年。
这件事有意思的地方不只是“AI 又读懂了古文字”,而是它展示了一种新的文献修复路径:不打开卷轴、不刮开表面、不破坏文物,只用扫描数据和算法把已经卷成一团的文本重新摊开。
图源:Vesuvius Challenge。上图能直观看到这件事的难点:研究者面对的不是一张平整纸页,而是一卷已经碳化、压缩、层层缠绕的古代纸草。
这批纸草卷为什么特殊
公元 79 年,维苏威火山喷发,庞贝和赫库兰尼姆等古城被火山灰、碎屑和高温冲击掩埋。赫库兰尼姆有一座著名别墅,后来被称为 Villa of the Papyri,也就是“纸草别墅”。考古人员在那里发现了大量古代卷轴。
问题是,这些纸草卷已经被高温碳化。它们看起来像黑色木炭,极其脆弱。过去如果强行展开,很容易把纸草卷撕碎,文字也会随之消失。
所以很长一段时间里,这批卷轴像是被历史封存的硬盘:内容可能很重要,但几乎无法安全读取。
AI 到底做了什么
这次方法可以简单理解成三步。
第一步,研究者用高分辨率 X 射线扫描纸草卷,获得卷轴内部的三维结构。纸草虽然没有被物理展开,但扫描能看到层与层之间的空间关系。
第二步,算法尝试做“虚拟展开”。也就是把卷起来、挤压变形的纸草层,在数字空间里展开成更接近平面的形态。
第三步,机器学习模型识别墨迹。难点在于赫库兰尼姆纸草卷使用的墨水和碳化纸草之间对比度很低,肉眼很难直接分辨。AI 模型要从细微纹理、密度和形状变化里判断哪里可能是文字。
这不是传统 OCR 那种“把清晰图片里的字识别出来”。它更像是在一团三维碳化材料里,找出几乎不可见的墨迹痕迹,再把它们排成可读文本。
这次读出了什么
报道提到,研究者从 PHerc 1667 中识别出了约 20 栏文本。内容与斯多葛哲学相关,可能涉及伦理、理性、生活方式或古代哲学讨论。
图源:Vesuvius Challenge。这里展示的是虚拟展开后的书写面,右侧文字更密集,也更能说明为什么连续文本比零散单词更有研究价值。
这类内容不一定会马上改写古典学,但它有几个现实意义。
第一,它说明方法正在从“读出几个词”走向“读出连续段落”。只要连续文本变多,学者才有机会判断作者、主题、文体和思想脉络。
第二,它给其他未展开纸草卷提供了技术路径。赫库兰尼姆纸草卷仍有大量内容没有被读取。如果这套方法继续提升,未来可能会出现更多古代文本。
第三,它让 AI 在学术研究里的角色更清晰:AI 不是替代古典学者,而是把原本不可读的材料转化为可研究对象。真正的释读、校勘、断代和思想分析,仍然需要历史学家、古典学家和纸草学专家来完成。
Vesuvius Challenge 的作用
这项进展和 Vesuvius Challenge 有关。这个项目把赫库兰尼姆纸草卷的扫描数据开放给全球研究者,鼓励机器学习、计算机视觉和古典学团队一起解决“如何读取不可展开卷轴”的问题。
它的思路很适合今天的 AI 研究:问题清楚、数据真实、评估目标明确,而且学科交叉程度很高。参与者既要懂图像处理,也要理解纸草结构,还要能和古文字专家协作。
更重要的是,它把一个过去高度封闭的文物读取难题,变成了一个开放竞赛和协作问题。这也是为什么近几年赫库兰尼姆纸草卷会频繁出现在 AI 新闻里。
为什么不能直接打开卷轴
普通读者最容易问的是:既然里面有文字,为什么不直接把纸草卷展开?
原因很简单:它太脆了。
这些纸草卷经历了火山喷发、高温碳化和近两千年保存,物理结构已经非常不稳定。历史上曾有人尝试机械展开部分卷轴,但损伤很大。今天研究者更倾向于使用非破坏性方法,也就是扫描和算法。
这也是 AI 和成像技术的价值所在:它们不只是“更快”,而是让一些过去不敢做、不能做的研究变得可能。
这对 AI 意味着什么
这类项目提醒我们,AI 的一个重要应用方向不在聊天界面里,而在科学工具链里。
在这里,AI 不是单独生成答案,而是嵌入到一个完整流程中:
- 文物保护提供约束。
- X 射线成像提供数据。
- 计算机视觉处理三维结构。
- 机器学习模型识别墨迹。
- 古典学者解释文本。
它的价值来自协作,而不是某个模型单独“聪明”。这种模式在医学影像、材料科学、天文学、考古和档案修复里都会越来越常见。
也要保持谨慎
不过,这项进展也不应该被夸张成“AI 彻底读懂了古罗马图书馆”。
目前能够读取的仍然是部分文本,模型判断也需要专家验证。古代纸草卷的字母残缺、行列错位、墨迹不清和上下文缺失,都会影响最终解释。即便读出了字符,也还要经过校勘、翻译和学术讨论。
更稳妥的说法是:AI 正在帮助研究者打开一批过去几乎无法读取的材料。它不是终点,而是把研究带到了一个新的起点。
我的看法
这件事最吸引人的地方,是它把“AI 热点”从日常工具拉回到人类知识本身。
如果这些纸草卷继续被读取出来,我们可能会看到失传哲学文本、古代书信、文学片段,甚至此前只在引用中出现过的作品。哪怕每次只多读出几栏,也是在把一座被火山封住的古代图书馆慢慢重新接回今天。
对 AI 来说,这比“又一个聊天机器人”更有长期意义。它说明算法真正有价值的地方,往往是把人类原本碰不到、看不清、读不出的东西,变成可以继续研究的材料。