被火山燒黑的古羅馬卷軸，AI 是怎麼把文字讀出來的？

維蘇威火山噴發留下的碳化紙草卷，又被 AI 往前推進了一步。

據 CNN 和 Guardian 等媒體報導，研究者借助高解析度 X 射線掃描、電腦視覺和機器學習方法，從一卷被火山熱浪燒焦、無法物理展開的赫庫蘭尼姆紙草卷中讀出了更多文字。這卷紙草編號為 PHerc 1667，來自古羅馬赫庫蘭尼姆遺址，距今約 2000 年。

這件事有意思的地方不只是「AI 又讀懂了古文字」，而是它展示了一種新的文獻修復路徑：不打開卷軸、不刮開表面、不破壞文物，只用掃描資料和演算法把已經卷成一團的文本重新攤開。

PHerc 1667 從碳化卷軸、CT 截面到虛擬展開文字的處理過程

圖源：Vesuvius Challenge。上圖能直觀看到這件事的難點：研究者面對的不是一張平整紙頁，而是一卷已經碳化、壓縮、層層纏繞的古代紙草。

這批紙草卷為什麼特殊

西元 79 年，維蘇威火山噴發，龐貝和赫庫蘭尼姆等古城被火山灰、碎屑和高溫衝擊掩埋。赫庫蘭尼姆有一座著名別墅，後來被稱為 Villa of the Papyri，也就是「紙草別墅」。考古人員在那裡發現了大量古代卷軸。

問題是，這些紙草卷已經被高溫碳化。它們看起來像黑色木炭，極其脆弱。過去如果強行展開，很容易把紙草卷撕碎，文字也會隨之消失。

所以很長一段時間裡，這批卷軸像是被歷史封存的硬碟：內容可能很重要，但幾乎無法安全讀取。

AI 到底做了什麼

這次方法可以簡單理解成三步。

第一步，研究者用高解析度 X 射線掃描紙草卷，取得卷軸內部的三維結構。紙草雖然沒有被物理展開，但掃描能看到層與層之間的空間關係。

第二步，演算法嘗試做「虛擬展開」。也就是把卷起來、擠壓變形的紙草層，在數位空間裡展開成更接近平面的形態。

第三步，機器學習模型識別墨跡。難點在於赫庫蘭尼姆紙草卷使用的墨水和碳化紙草之間對比度很低，肉眼很難直接分辨。AI 模型要從細微紋理、密度和形狀變化裡判斷哪裡可能是文字。

這不是傳統 OCR 那種「把清晰圖片裡的字識別出來」。它更像是在一團三維碳化材料裡，找出幾乎不可見的墨跡痕跡，再把它們排成可讀文本。

這次讀出了什麼

報導提到，研究者從 PHerc 1667 中識別出了約 20 欄文本。內容與斯多葛哲學相關，可能涉及倫理、理性、生活方式或古代哲學討論。

PHerc 1667 虛擬展開後的可讀文字區域

圖源：Vesuvius Challenge。這裡展示的是虛擬展開後的書寫面，右側文字更密集，也更能說明為什麼連續文本比零散單詞更有研究價值。

這類內容不一定會馬上改寫古典學，但它有幾個現實意義。

第一，它說明方法正在從「讀出幾個詞」走向「讀出連續段落」。只要連續文本變多，學者才有機會判斷作者、主題、文體和思想脈絡。

第二，它給其他未展開紙草卷提供了技術路徑。赫庫蘭尼姆紙草卷仍有大量內容沒有被讀取。如果這套方法繼續提升，未來可能會出現更多古代文本。

第三，它讓 AI 在學術研究裡的角色更清晰：AI 不是替代古典學者，而是把原本不可讀的材料轉化為可研究對象。真正的釋讀、校勘、斷代和思想分析，仍然需要歷史學家、古典學家和紙草學專家來完成。

Vesuvius Challenge 的作用

這項進展和 Vesuvius Challenge 有關。這個專案把赫庫蘭尼姆紙草卷的掃描資料開放給全球研究者，鼓勵機器學習、電腦視覺和古典學團隊一起解決「如何讀取不可展開卷軸」的問題。

它的思路很適合今天的 AI 研究：問題清楚、資料真實、評估目標明確，而且學科交叉程度很高。參與者既要懂影像處理，也要理解紙草結構，還要能和古文字專家協作。

更重要的是，它把一個過去高度封閉的文物讀取難題，變成了一個開放競賽和協作問題。這也是為什麼近幾年赫庫蘭尼姆紙草卷會頻繁出現在 AI 新聞裡。

為什麼不能直接打開卷軸

普通讀者最容易問的是：既然裡面有文字，為什麼不直接把紙草卷展開？

原因很簡單：它太脆了。

這些紙草卷經歷了火山噴發、高溫碳化和近兩千年保存，物理結構已經非常不穩定。歷史上曾有人嘗試機械展開部分卷軸，但損傷很大。今天研究者更傾向於使用非破壞性方法，也就是掃描和演算法。

這也是 AI 和成像技術的價值所在：它們不只是「更快」，而是讓一些過去不敢做、不能做的研究變得可能。

這對 AI 意味著什麼

這類專案提醒我們，AI 的一個重要應用方向不在聊天介面裡，而在科學工具鏈裡。

在這裡，AI 不是單獨生成答案，而是嵌入到一個完整流程中：

文物保護提供約束。
X 射線成像提供資料。
電腦視覺處理三維結構。
機器學習模型識別墨跡。
古典學者解釋文本。

它的價值來自協作，而不是某個模型單獨「聰明」。這種模式在醫學影像、材料科學、天文學、考古和檔案修復裡都會越來越常見。

也要保持謹慎

不過，這項進展也不應該被誇張成「AI 徹底讀懂了古羅馬圖書館」。

目前能夠讀取的仍然是部分文本，模型判斷也需要專家驗證。古代紙草卷的字母殘缺、行列錯位、墨跡不清和上下文缺失，都會影響最終解釋。即使讀出了字元，也還要經過校勘、翻譯和學術討論。

更穩妥的說法是：AI 正在幫助研究者打開一批過去幾乎無法讀取的材料。它不是終點，而是把研究帶到了一個新的起點。

我的看法

這件事最吸引人的地方，是它把「AI 熱點」從日常工具拉回到人類知識本身。

如果這些紙草卷繼續被讀取出來，我們可能會看到失傳哲學文本、古代書信、文學片段，甚至此前只在引用中出現過的作品。哪怕每次只多讀出幾欄，也是在把一座被火山封住的古代圖書館慢慢重新接回今天。

對 AI 來說，這比「又一個聊天機器人」更有長期意義。它說明演算法真正有價值的地方，往往是把人類原本碰不到、看不清、讀不出的東西，變成可以繼續研究的材料。