世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下

微胖發表於2018-05-06

梵蒂岡秘密檔案室是世界上最偉大的歷史收藏館之一,然而也是最無用的收藏館。

偉大之處顯而易見。梵蒂岡秘密檔案室位於梵蒂岡城牆之內,緊鄰使徒圖書館,位於西斯廷教堂北側,秘密檔案室記憶體放的書架甚至可追溯到 12 世紀之前,排列起來可達 53 英里。

其中包括教皇利奧十世下令驅逐馬丁路德的教令、蘇格蘭瑪麗女王被斬首前寫給天主教教宗西都斯五世的求情信。無論是在收藏規模或是收藏範圍上,梵蒂岡秘密檔案室都是無可比擬的。

然而,因為能夠接觸到的檔案極其有限,梵蒂岡秘密檔案室對現代學者來說沒有太多用處。在這長達 53 英里的檔案中,有少部分檔案經過掃描提供線上訪問。僅有更少量的檔案被轉錄為計算機文字能夠進行搜尋。如果你想要研讀其他檔案,你必須申請特殊的訪問許可權,一路通行前往羅馬,最後手動瀏覽每一頁。

一項新興的專案可能會改變現狀。這項技術被稱為 In Codice Ration,將人工智慧光學字元識別(OCR)軟體相結合來轉錄這些被忽視的文字,首次讓這些記錄文字大白於天下。

如果成功的話,這項技術還能開啟其他隱藏在世界各個歷史檔案館中的檔案。

多年來,OCR 一直用於掃描書籍、列印檔案,但是這項技術並不適用於存放在梵蒂岡內的機密檔案。傳統的 OCR 透過查詢字元之間的空白將單詞分解成一系列字母影像。然後 OCR 將字母影像與記憶體中的字母庫進行比對。找出與影像最匹配的字母,軟體將該字母轉錄為計算機 ASCII 編碼,從而讓文字實現可搜尋化。

然而,這個過程卻只能用於排版後的文字。對於手寫文字,傳統 OCR 的表現很糟糕——而絕大多數古老的梵蒂岡檔案卻正是手寫文字。下圖是一份 12 世紀早期檔案的例子,是以所謂的卡羅琳小寫字型書寫的,看起來就像是書寫體和手寫體的混合:

世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下

這個例子的主要問題就在於字母間缺少空格(所謂的髒分割),OCR 無法分辨單個字母的起止位置,因此也就無法統計字母的數量。最終就造成了一個計算上的僵局,有時也被稱為 Sayre 悖論:

OCR 軟體需要將單詞分割成單個字母從而進行識別,但是手寫文字有大量的連寫,軟體要想分割字母必須要先識別字母。這就是矛盾所在,就像是《第 22 條軍規》。

一些電腦科學家想要重新開發 OCR 技術,不再僅識別單個字母,而是識別整個單詞。單從技術上來講,改進的 OCR 很不錯——計算機不會「關心」它們解析的是單詞還是字母。但建立系統並讓它正常運轉是一種負擔,這需要龐大的儲存庫作為支撐。

新型系統的記憶庫不再是寥寥數十個字母,取而代之的是大量普通單詞,系統需要根據這些單詞庫進行單詞影像識別。這意味著你還需要一組對中世紀拉丁語有充分造詣的學者,查閱舊檔,獲取單詞的影像。

事實上,每個單詞你需要幾張不同的影像,來解釋筆跡的不同或者糟糕燈光或是其他因素造成的單詞差異。這是一項艱鉅的任務。

In Codice Ratio 團隊採取了一種新的手寫 OCR 方法避免了上述問題。

這個專案四位主要的科學家分別是——羅馬第三大學的 Paolo Merialdo、Donatella Firmani 和 Elena Nieddu 以及 VSA 的 Marco Maiorino——他們以一種新型的「拼圖分割」方法成功繞開了 Syaer 悖論。

該團隊在論文中表示,拼圖分割沒有將單詞分割為字母,而是分割成一種更接近單個筆畫的東西。OCR 透過將單詞劃分為一系列垂直、水平帶,並尋找區域性最小——更薄的部分,那裡的墨水較少(實際上是畫素更少)。然後軟體則根據這些區域性點分割字母。最終得到的結果是一系列拼圖塊:世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下

然而,這些拼圖塊並沒什麼用。但是 OCR 軟體可以用不同的方式把它們重新組合,重現出一些可能的字母。它只需要知道重組後的字元哪些代表真正的字母,哪些是假的。

為了讓軟體學會這一點,研究員們向一個特殊群體尋求幫助:高中生。該團隊在義大利 24 所學校招募學生建立專案自己的記憶庫。學生們登入一個網站,螢幕上出現三個部分的圖片:

世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下

最上面綠色方框中包含的就是清晰的中世紀拉丁文「g」的例子。

中間的紅框則是一些 g 的虛假例子,Codice 科學家們稱其為「假朋友」。底部的網格則是程式的核心部分。每一副影像均由幾個拼圖構成,OCR 則嘗試將其組合在一起猜測出可能的字母。

隨後學生們則會判斷 OCR 得出的結果,告訴它哪些猜測是好的,哪些猜測不好。他們把每張圖片和綠框中的例子相比較,如果相匹配,就點選那個核取方塊。

一張又一張圖片,一次又一次的點選,學生們就這麼教會軟體——中世紀拉丁文的 22 個字母(a-i,l-u,還有一些 s 和 d 的不同寫法)到底是什麼樣子的。

軟體最初的設定確實需要一些專家們的努力:學者們需要找出綠框中完美的例子,以及紅框中的「假朋友」。但是一旦他們完成這些工作,後續就不再需要他們了。學生們甚至都不需要能閱讀拉丁文。他們需要做的就是視覺模式匹配

最初,「他們覺得讓高中生參與進來這個實在是愚蠢,」Merialdo 說道(Merialdo 憑空想出了 In Codice Ratio 專案)。但是現在正是由於這些高中生的努力才使得 OCR 正在學習。每個人都做出自己微小的,簡單的貢獻,確實有助於解決一個複雜的問題,我喜歡這種方式。

當然,最後學生們也幫不上忙了。一旦他們在足夠多的例子上投下「是」的贊成票,軟體就會開始獨立地將碎片拼在一起,自行判斷字母。軟體本身就成為了一個專家——成為了人工智慧

至少是某方面的人工智慧。事實證明,把拼圖塊拼成看似合理的字母是不夠的。計算機還需要額外的工具來理清手寫文字其他的問題。想一下你正在讀一封信,你會發現這句話:

世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下

這究竟是對他們來說是「清楚(clear)」還是「親愛的(dear)」?

很難說,因為構成「d」和「cl」的筆畫實際上是相同的。OCR 軟體面臨同樣的問題,尤其對 Caroline 小寫字型這種高度風格化的文字來說更是如此。你嘗試破譯一下這個單詞:世界上「秘密最多」的梵蒂岡檔案室,將因為AI技術而大白於天下經過不同的拼圖組合的嘗試之後,OCR 舉手回答了。它猜是 aimo、amio、aniio、aiino 中的一種,甚至猜測是童謠 『老麥當勞有個農場』中的一個單詞 aiiiio。

事實上,這個單詞是 anno,拉丁語表示「年」,軟體確定了 a 和 o,但是中間這四個平行的柱子讓它有些搞不清。

為了解決這一問題,In Codice Ratio 團隊必須教授軟體一些常識——實踐性智慧。

他們找出了 150 萬本已經數字化的拉丁詞語料庫,對字母進行了兩兩組合以及三三組合。他們確定哪些字母的組合常見,哪些字母的組合不會出現。OCR 軟體使用這些統計資料為不同的字母組合分配機率。最終,軟體發現「nn」比「iiii」更有可能。

對軟體進行改進之後,OCR 終於能夠自主閱讀一些文字了。團隊決定向 OCR 饋送一些 Vatican Registers 檔案,一份超過 18000 頁的檔案,秘密檔案的一部分,其中包括寫給歐洲國王的信件、法律的裁定等。

最初的結果好壞參半。到目前為止,在文字轉錄過程中,有三分之一的單詞包含一個或多個拼寫錯誤,這也讓 OCR 猜錯了字母。(最常見的拼寫錯誤包括 m/n/i 的混淆和另一種分辨不清的情況:字母 f 和一種古式的拉長型 s 寫法)。

不過,該軟體在手寫信件中還是達到了 96% 的正確率。而且,即使是「不完美的轉錄也能提供足夠的資訊和背景資料」,這是很有用的,Merialdo 如是說道。

文章來源:https://www.theatlantic.com/technology/archive/2018/04/vatican-secret-archives-artificial-intelligence/559205/?from=groupmessage&isappinstalled=0

相關文章