阿里巴巴達摩院技術助海外中文古籍數字化 20萬頁古籍AI識別準確率97.5%
阿里巴巴達摩院技術助海外中文古籍數字化 20萬頁古籍AI識別準確率97.5%
(中央社訊息服務20210519 16:02:40)在悠長的歷史洪流中,古籍刻本成為傳承不同時代人文生活的重要載體,而科技則為歷史記載帶來更多展示方式。在5月18日國際博物館日,一批珍藏於美國加州大學柏克萊分校的中文古籍善本得以利用數字化方式,通過「漢典重光」平台重回公眾視線,供予翻閱、檢索及調用。
「漢典重光」項目由阿里巴巴公益基金會、中國四川大學、加州大學柏克萊分校、中國國家圖書館及浙江圖書館等單位共同合作,旨在尋覓流散海外的中國古籍將其數字化與公共化,讓大家特別是古籍研究者也能夠親近古籍,通過古籍與先賢對話,與優秀傳統文化對話。
阿里巴巴達摩院院長張建鋒表示,阿里巴巴計劃將這套技術工具連同古籍數字化平台一併捐贈,交由權威公共機構長期運營,同時,阿里巴巴仍將在古籍數字化工作上持續投入人力物力。
古籍散佚向來受文化傳播、邦交貿易、慈善捐贈或天災人禍等因素影響,歷史上中國古籍時有出海,這些中國古籍包括甲骨簡牘、敦煌遺書、宋元善本、明清精槧、拓本輿圖及少數民族文獻等。
2019年,阿里巴巴和四川大學以數字化為合作契機,由四川大學歷史文化學院副院長王果與該院教授、中央文史研究館館員陳力牽線搭橋,聯絡位於北美洲、歐洲及日本韓國等地的藏書機構,並獲得加州大學柏克萊分校支持,達成公益項目「漢典重光」的共識,將柏克萊東亞圖書館的中文古籍、手稿及文獻等善本逐步數字化。
加州大學柏克萊分校是美國的漢學研究重鎮,以中文藏書量計,為全美國排名第三。納入首批數字化名單的約20萬頁古籍中,包含40餘種珍貴宋元刻本及寫本,例如宋刻本《後村居士集》、北宋《金粟山大藏經》寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本。
達摩院研發全新古籍識別系統
將古籍數字化的方法主要有兩種,一種是純人工錄入,將內容全數輸入至電腦之中;另一種是電腦與人工相結合,由電腦利用光學字元辨識(Optical character recognition,OCR)技術識別一部分文字,電腦無法識別的文字就由專家手動錄入,最終再由人工校對。
中國古籍全部字符約有數十萬,絕大部分不僅沒被現代字庫收錄,也幾乎找不到樣本供人工智能(AI)學習。面對海量未受標註的數據,如何讓AI快速批量識別古籍,始終是「古籍數字化」領域的技術瓶頸。
達摩院技術團隊與四川大學專家聯手研發一套全新的古籍識別系統,利用單字檢測、無監督單字聚類、少樣本分類、主動學習等有系統性的機器學習方法,構造一套邊識別古籍、邊訓練模型的系統,以97.5%的準確率完成對約20萬頁古籍的整體識別。
目前該古籍識別系統已經能有規模地識別逾百本古籍,並沉澱覆蓋3萬多字的古籍字典。比起專家人工錄入,這套人機交互的識別系統將效率提升近30倍。隨著古籍識別規模的擴增,機器還會自我進化,不斷提升準確率和效率。
長期在中央文史研究館研究古籍的陳力表示,典籍是中華文明的傳承載體,更是人類世界的公共財產,希望有更多力量參與中國古籍的保護和傳承,讓所有蒙塵的古籍都進入公共世界,讓更多普通人有機會接觸古籍、使用古籍,讓書寫在古籍裡的文字活起來。
訊息來源:阿里足跡
本文含多媒體檔 (Multimedia files included):
http://www.cna.com.tw/postwrite/Detail/293315.aspx