義大利那不勒斯大學的紙莎草學家尼可拉迪 (Nicoladi) 參與了一項利用人工智慧 (AI) 閱讀不可讀內容的研究。現在最新的結果已經出來了。圖像顯示了一條紙莎草紙,上面寫滿了整齊的希臘字母,在較暗的背景下閃閃發光。字跡清晰可辨,有幾行深,橫跨近五欄。喬馬錢特 Jo Marchant發表在最新一期權威期刊《自然》(Nature)的<人工智慧如何解鎖古代文字並改寫歷史>( How AI is unlocking ancient texts — and could rewrite history)說, 從破解燒毀的羅馬捲軸到閱讀破碎的楔形文字板,神經網路可以為研究人員提供幾個世紀以來更多的數據。
這文本在 2000 年來都完全無法閱讀
2023 年 10 月,一封電子郵件發送到 Federica Nicolardi 的手機上,其中的一張圖片將永遠改變她的研究。它展示了公元79年維蘇威火山噴發時被燒毀的紙莎草捲軸碎片。的數百捲紙捲之一。幾個世紀以來,人們一直試圖剝開捲軸脆弱的碳化層,但許多捲軸都被撕成了碎片,學者被迫接受其餘部分永遠無法打開的事實。
「這太不可思議了,」尼科拉迪說。 「我想,『這真的發生了。』」她當時就知道紙莎草學將永遠不會一樣。 「在那一刻,你真的會想『現在我正在經歷的事情將成為我所在領域的歷史性時刻。』」她正在閱讀整行文本,而這本文本在 2000 年來都完全無法閱讀。
人工神經網路被用來破解古代文本
這個名為「維蘇威火山挑戰」的計畫只是複雜人工智慧的一個例子,它已經徹底改變了現代生活的所有領域,從銀行業到醫學研究,並將重塑我們對古代世界的看法。人工神經網路被用來破解古代文本,從古典的希臘語和拉丁語到中國的甲骨文,即寫在牛骨和龜殼上的古代占卜文本。他們正在理解人類無法閱讀的龐大檔案,填補缺失和無法讀取的字符,並解碼幾乎沒有任何痕跡的稀有和失落的語言。
研究結果預示著大量新文本的出現,為學者提供了幾個世紀以來更多的數據。但這還不是全部。由於人工智慧工具可以識別比任何人所能知道的更多的語言並儲存更多的信息,並為自己發現文本中的統計模式,因此這些技術有望提供一種探索古代資源的全新方法。尼科拉迪說,這不僅可以改變我們想要回答的問題,還可以改變我們可以提出的問題。
重建古代文本
幾十年來,電腦一直被用來對數位化文本進行分類和分析。但目前的興奮來自於神經網路的使用,神經網路由互連節點的分層組成,特別是具有多個內部層的「深層」神經網路。
2010 年代,將深度學習應用於古代文本的早期嘗試是基於文本的數位照片,無論是紙莎草還是棕櫚葉上的文本。受視覺神經科學啟發,稱為卷積神經網路 (CNN) 的模型可以從影像中捕捉網格狀資料。它們用於光學字符識別,但也有其他應用:研究甲骨文的中國團隊已經使用此類模型來填充被侵蝕的文字圖像、分析甲骨文字符如何隨時間演變以及拼湊破碎的碎片。同時,循環神經網路(RNN)旨在處理線性順序很重要的資料序列,開始顯示出在搜尋、翻譯和填補已轉錄文本中的空白方面的巨大潛力。例如,它們被用來暗示古代巴比倫的數百個公式化的行政和法律文本中缺少的字符。
捲起的赫庫蘭尼姆捲軸的第一段內容揭曉
神經網路能否超越加速繁瑣任務的範圍,建立人類專家無法做到的連結?第一個展示人工智慧潛力的大型計畫於 2017 年在英國牛津大學展開合作,當時 Thea Sommerschield 正在攻讀古代歷史博士學位,Yannis Assael 正在攻讀電腦科學博士學位。索默斯基爾德試圖破解來自西西里島的希臘銘文,並向阿薩爾解釋了所面臨的挑戰。 「它們讀起來非常複雜,保存得很差,部分內容丟失了,」她說。 「我們不太確定他們來自哪裡或他們的日期是什麼;這裡有有趣的方言混合。
古典主義者利用他們對類似現有文本的知識來解釋新的來源。他們通常是特定時間和地點作品的專家;一個人不可能掌握與新文本潛在相關的所有來源。阿薩爾表示,這正是機器學習模式可以幫助解決的挑戰,他現在在倫敦的Google DeepMind 工作。
研究人員最初利用公元前七世紀至公元五世紀書寫的數萬個希臘銘文訓練了一個名為 Pythia 的基於 RNN 的模型。然後他們展示了它以前從未見過的模型文本,並要求它建議缺少的單字或字元。
看到修復體逐個字符地出現在屏幕
現任職於英國諾丁漢大學的 Sommerschield 仍然記得第一次與 Assael 和她的導師 Jonathan Prag 一起運行該模型,並看到修復體逐個字符地出現在屏幕上,這在以前是不可能的。
「這就像電影中的場景,」她說。 “我們真的感覺下巴掉到了地上。”他們在 2022 年推出了一個名為 Ithaca 的模型,該模型還對未知文本的起源日期和地點提出建議6。這次,研究人員利用了稱為 Transformer 模型的機器學習突破,該模型透過平行分析輸入的不同特徵(例如字元或單字),捕捉比 RNN 更複雜的語言模式,並根據它們進行加權結合上下文。 (OpenAI 的 ChatGPT 和 Anthropic 的 Claude 等流行的聊天機器人都是基於 Transformer 模型的。)
Sommerschield 表示,該團隊的目標是設計能夠幫助研究人員更有效地工作的工具:神經網路探索龐大檔案中的聯繫,而人類則帶來他們的專業理解。 「人是我們設計的中心,」阿薩爾表示同意。在測試中,伊薩卡以 62% 的準確度修復了古代文本中人為產生的空白,而人類專家的準確度為 25%。但在伊薩卡建議的幫助下,專家們取得了最好的結果,填補了空白,準確率為 72%。伊薩卡還以 71% 的準確度確定了銘文的地理起源,並將其年代確定為公認估計的 30 年內。
據其創建者稱,伊薩卡可以在網上免費使用,並且每週已經收到數百個查詢。薩默斯希爾德說,除非作者選擇承認,否則不可能知道它何時對研究做出了貢獻,但迄今為止報導的例子包括重新確定雅典政治法令的日期,以及對公元前四世紀石板的調查包含向希臘西北部的多多納神諭提出的問題。
朝鮮古代國王的記錄寫在裝訂紙上
同時,韓國研究人員在處理世界上最大的歷史檔案之一時面臨著截然不同的挑戰:詳細的每日記錄,包含數十萬篇文章,涵蓋27 位韓國國王的統治時期,時間可追溯到14 世紀到20 世紀初。 「數據量龐大,」紐約大學機器翻譯首席研究員 Kyunghyun Cho 說。曹通常使用現代語言進行研究,但在與他的父親(一位退休的韓國文學教授)討論後對檔案產生了興趣。這些記錄很完整,來源也已知,但幾乎沒有人能讀懂。它們是用漢字書寫的,這是一種基於漢字的古代書寫系統,與現代中文或韓語不同。
一小群政府翻譯人員正在努力將這些文字手動翻譯成現代韓語,但這項任務可能需要幾十年才能完成。 Cho 與韓國的同事(包括首爾成均館大學的 JinYeong Bak)合作,訓練了一個基於變壓器的網路來自動翻譯記錄7。目前還沒有足夠的材料被翻譯成現代韓語來訓練這樣的模型,因此該團隊採用了多語言方法,使用漢字、幾十年前翻譯成的古韓語以及數量有限的現代韓語和英語翻譯。人類專家認為人工智慧翻譯——對國事訪問、懲罰叛徒和音樂會等事件的描述——比古老的翻譯更加準確和可讀,在某些情況下甚至比現代翻譯更好8。
處理僅存少量文本的古代語言
另一方面,研究人員正在使用神經網路來處理僅存少量文本的古代語言。 Transformer 模型並不總是適用於這些情況,因為它們需要大量的訓練材料。例如,希臘帕特雷大學的Katerina Papavassileiou 和她的同事使用RNN 來恢復來自克里特島克諾索斯的一系列1,100 塊邁錫尼石碑中丟失的文本,其中包含用名為Linear B 的腳本編寫的羊群記述。在人為產生間隙的測試中,該模型的前 10 個預測在 72% 的時間內包含正確答案,而在現實情況下,它通常與人類專家的建議相符。為了進一步改善結果,Papavassileiou 希望添加視覺數據,例如不完整字母的痕跡,而不僅僅是依賴音譯文字。她也正在研究“遷移學習”,該模型將從一系列平板電腦中學到的經驗教訓應用到另外10 台平板電腦上。
Papavassilieou 希望有一天能夠使用在 Linear B 上訓練的模型來解決 Linear A,這是米諾斯文明使用的一種文字,與 Linear B 共享許多符號,但從未被破解。
破解不可讀的內容
或許,研究人員對赫庫蘭尼姆古卷的成功研究是人工智慧解決巨大挑戰能力的最終證明。 「我認為他們正在做一些最令人驚奇的工作,」阿薩爾說。列剋星敦肯塔基大學的電腦科學家布倫特·西爾斯和他的同事在維蘇威火山挑戰賽參與者的幫助下,正在解決看似不可能的任務,即閱讀根本看不到的文本。
閱讀赫庫蘭尼姆古卷需要克服兩個大問題。首先,脆弱的捲軸無法解開。為了看到它們的內部,Seales 花了數年時間開發「虛擬展開」技術,該技術包括對捲軸的內部結構進行高解析度電腦斷層掃描(CT) 掃描,精心繪製橫斷面每一幀中可見的表面,然後使用將表面展開成平面影像的演算法。 2015年,研究人員使用這種技術從以色列恩戈地的一本燒焦的、無法打開的捲軸中讀取了完整的文本,該捲軸的歷史可以追溯到公元三世紀左右,結果證明它來自聖經的利未記。
可以訓練神經網路來發現差異
隱基底捲軸有五卷;赫庫蘭尼姆古卷每卷都有數百圈,薄如絲綢。因此,為了捕獲極高解析度的 CT 數據,該團隊將幾個捲軸運送到牛津附近的鑽石光源粒子加速器。但是,恩基底捲軸和其他後來的作品中的墨水往往含有鐵,在CT 掃描中會發出明亮的光,而赫庫蘭尼姆的抄寫員則使用碳基墨水,這種墨水在掃描中不可見,因為它的密度與其所在的紙莎草相同。西爾斯和他的團隊意識到,雖然他們無法直接看到墨水,但他們也許能夠偵測到它的形狀。如果裸露的紙莎草纖維與塗有墨水的紙莎草纖維的表面紋理存在細微差別,也許他們可以訓練神經網路來發現差異。
最近在同步加速器設施中掃描後,夾在底座上的赫庫蘭尼姆捲軸的一小片碎片
2019 年,英國鑽石光源同步加速器對赫庫蘭尼姆古城捲軸進行了掃描。
對於 Seales 的小團隊來說,工作量太大,因此他們於 2023 年 3 月與矽谷企業家 Nat Friedman 聯手發起了維蘇威挑戰賽,該挑戰賽提供了巨額現金獎勵。西爾斯和他的同事發布了捲軸表面的扁平圖像,並要求參賽者訓練神經網路來尋找墨水。超過 1,000 個團隊參加比賽,每天有數百人在比賽的 Discord 頻道上討論進度。 2024 年 2 月頒發了一項大獎:電腦科學專業的學生 Youssef Nader、Luke Farritor 和 Julian Schilliger 因製作了 16 列清晰可讀的文本而共同獲得了 70 萬美元。
獲勝團隊使用了 TimeSformer,這是 Transformer 模型的最新變體,通常用於視頻,分別處理空間和時間維度。維蘇威火山團隊用它來區分紙莎草的深度尺寸和表面外觀。尼可拉迪和她的同事隨後發現,揭示的文本來自一部以前未知的關於音樂、快樂和感覺的希臘哲學著作,可能是伊比鳩魯派哲學家菲洛德穆斯的著作。她說,從事這項工作是「神奇的」。
從那時起,參賽者在紙莎草學家的幫助下致力於改進他們的墨水檢測演算法。同時,Seales 的團隊正在掃描更多捲軸,並希望機器學習能夠加快虛擬展開步驟。他說,這是目前限制參賽者必須使用的數據的瓶頸。他樂觀地認為,人工智慧驅動的拆包技術將及時推出,讓閱讀了四捲軸 90% 的人贏得 2024 年大獎,獎金為 20 萬美元。 「一旦實現自動化,基本上就可以擴大規模,」Seales 在談到拆包時說道。 “我們正處於這一點的風口浪尖。”
中世紀書籍裝訂或古埃及木乃伊包裝內的文字
事實上,西爾斯想要閱讀整個圖書館。有數百幅來自赫庫蘭尼姆的未開封捲軸被收藏——大部分在那不勒斯,但巴黎、倫敦和牛津也有收藏。 「對於紙莎草學家來說,來自古代世界的新文本將比他們一個世紀以來見過的還要多,」他說。
該方法還打開了其他無法訪問的資源,西爾斯稱之為「隱形圖書館」。其中包括隱藏在中世紀書籍裝訂或古埃及木乃伊包裝內的文字,「它就在這裡,我們拿著實物,但我們無法閱讀文字」。該團隊已經從華盛頓特區史密森尼博物館保存的未打開的埃及捲軸中獲取了數據,並正在討論分析來自約旦佩特拉的紙莎草紙,這些紙莎草紙在公元七世紀的一場火災中被燒毀。
更重要的是,一些考古學家認為赫庫蘭尼姆別墅的大部分圖書館仍然位於地下。如果將其挖掘出來,可能會產出數千捲軸。西爾斯說,閱讀所有這些內容將是「人類歷史上來自古代世界的最大發現」。 “現在,我們有了技術。”