被火山烧黑的古罗马卷轴，AI 是怎么把文字读出来的？

维苏威火山喷发留下的碳化纸草卷，又被 AI 往前推进了一步。

据 CNN 和 Guardian 等媒体报道，研究者借助高分辨率 X 射线扫描、计算机视觉和机器学习方法，从一卷被火山热浪烧焦、无法物理展开的赫库兰尼姆纸草卷中读出了更多文字。这卷纸草编号为 PHerc 1667，来自古罗马赫库兰尼姆遗址，距今约 2000 年。

这件事有意思的地方不只是“AI 又读懂了古文字”，而是它展示了一种新的文献修复路径：不打开卷轴、不刮开表面、不破坏文物，只用扫描数据和算法把已经卷成一团的文本重新摊开。

PHerc 1667 从碳化卷轴、CT 截面到虚拟展开文字的处理过程

图源：Vesuvius Challenge。上图能直观看到这件事的难点：研究者面对的不是一张平整纸页，而是一卷已经碳化、压缩、层层缠绕的古代纸草。

这批纸草卷为什么特殊

公元 79 年，维苏威火山喷发，庞贝和赫库兰尼姆等古城被火山灰、碎屑和高温冲击掩埋。赫库兰尼姆有一座著名别墅，后来被称为 Villa of the Papyri，也就是“纸草别墅”。考古人员在那里发现了大量古代卷轴。

问题是，这些纸草卷已经被高温碳化。它们看起来像黑色木炭，极其脆弱。过去如果强行展开，很容易把纸草卷撕碎，文字也会随之消失。

所以很长一段时间里，这批卷轴像是被历史封存的硬盘：内容可能很重要，但几乎无法安全读取。

AI 到底做了什么

这次方法可以简单理解成三步。

第一步，研究者用高分辨率 X 射线扫描纸草卷，获得卷轴内部的三维结构。纸草虽然没有被物理展开，但扫描能看到层与层之间的空间关系。

第二步，算法尝试做“虚拟展开”。也就是把卷起来、挤压变形的纸草层，在数字空间里展开成更接近平面的形态。

第三步，机器学习模型识别墨迹。难点在于赫库兰尼姆纸草卷使用的墨水和碳化纸草之间对比度很低，肉眼很难直接分辨。AI 模型要从细微纹理、密度和形状变化里判断哪里可能是文字。

这不是传统 OCR 那种“把清晰图片里的字识别出来”。它更像是在一团三维碳化材料里，找出几乎不可见的墨迹痕迹，再把它们排成可读文本。

这次读出了什么

报道提到，研究者从 PHerc 1667 中识别出了约 20 栏文本。内容与斯多葛哲学相关，可能涉及伦理、理性、生活方式或古代哲学讨论。

PHerc 1667 虚拟展开后的可读文字区域

图源：Vesuvius Challenge。这里展示的是虚拟展开后的书写面，右侧文字更密集，也更能说明为什么连续文本比零散单词更有研究价值。

这类内容不一定会马上改写古典学，但它有几个现实意义。

第一，它说明方法正在从“读出几个词”走向“读出连续段落”。只要连续文本变多，学者才有机会判断作者、主题、文体和思想脉络。

第二，它给其他未展开纸草卷提供了技术路径。赫库兰尼姆纸草卷仍有大量内容没有被读取。如果这套方法继续提升，未来可能会出现更多古代文本。

第三，它让 AI 在学术研究里的角色更清晰：AI 不是替代古典学者，而是把原本不可读的材料转化为可研究对象。真正的释读、校勘、断代和思想分析，仍然需要历史学家、古典学家和纸草学专家来完成。

Vesuvius Challenge 的作用

这项进展和 Vesuvius Challenge 有关。这个项目把赫库兰尼姆纸草卷的扫描数据开放给全球研究者，鼓励机器学习、计算机视觉和古典学团队一起解决“如何读取不可展开卷轴”的问题。

它的思路很适合今天的 AI 研究：问题清楚、数据真实、评估目标明确，而且学科交叉程度很高。参与者既要懂图像处理，也要理解纸草结构，还要能和古文字专家协作。

更重要的是，它把一个过去高度封闭的文物读取难题，变成了一个开放竞赛和协作问题。这也是为什么近几年赫库兰尼姆纸草卷会频繁出现在 AI 新闻里。

为什么不能直接打开卷轴

普通读者最容易问的是：既然里面有文字，为什么不直接把纸草卷展开？

原因很简单：它太脆了。

这些纸草卷经历了火山喷发、高温碳化和近两千年保存，物理结构已经非常不稳定。历史上曾有人尝试机械展开部分卷轴，但损伤很大。今天研究者更倾向于使用非破坏性方法，也就是扫描和算法。

这也是 AI 和成像技术的价值所在：它们不只是“更快”，而是让一些过去不敢做、不能做的研究变得可能。

这对 AI 意味着什么

这类项目提醒我们，AI 的一个重要应用方向不在聊天界面里，而在科学工具链里。

在这里，AI 不是单独生成答案，而是嵌入到一个完整流程中：

文物保护提供约束。
X 射线成像提供数据。
计算机视觉处理三维结构。
机器学习模型识别墨迹。
古典学者解释文本。

它的价值来自协作，而不是某个模型单独“聪明”。这种模式在医学影像、材料科学、天文学、考古和档案修复里都会越来越常见。

也要保持谨慎

不过，这项进展也不应该被夸张成“AI 彻底读懂了古罗马图书馆”。

目前能够读取的仍然是部分文本，模型判断也需要专家验证。古代纸草卷的字母残缺、行列错位、墨迹不清和上下文缺失，都会影响最终解释。即便读出了字符，也还要经过校勘、翻译和学术讨论。

更稳妥的说法是：AI 正在帮助研究者打开一批过去几乎无法读取的材料。它不是终点，而是把研究带到了一个新的起点。

我的看法

这件事最吸引人的地方，是它把“AI 热点”从日常工具拉回到人类知识本身。

如果这些纸草卷继续被读取出来，我们可能会看到失传哲学文本、古代书信、文学片段，甚至此前只在引用中出现过的作品。哪怕每次只多读出几栏，也是在把一座被火山封住的古代图书馆慢慢重新接回今天。

对 AI 来说，这比“又一个聊天机器人”更有长期意义。它说明算法真正有价值的地方，往往是把人类原本碰不到、看不清、读不出的东西，变成可以继续研究的材料。