破解梵蒂岡祕密檔案,這個AI認識中世紀手寫拉丁文

量子位發表於2018-05-02
伊瓢 發自 凹非寺 
量子位 報導 | 公眾號 QbitAI

用AI識別文字並不是什麼難事。

但如果文字是手寫的呢?如果文字是古文呢?

這聽起來就有點難度了。有一個叫 In Codice Ratio 的專案正在嘗試把梵蒂岡祕密檔案轉錄為可供查詢的電子版。

梵蒂岡祕密檔案:古歐洲八卦集散中心

梵蒂岡祕密檔案是羅馬教廷的代代教皇們留下的歷史卷宗,收藏在梵蒂岡城內專門的檔案館裡。由於記錄了超過12個世紀的資訊,收藏梵蒂岡祕密檔案的書架排成一排大概有53英里長,可以說資訊量巨大了。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1這樣的書架擺53英里(圖源百度百科)

這些檔案裡記錄了不少八卦。比如檔案裡收錄了一封英國貴族們在1530年寫給教皇克萊門特七世的信,要求教皇讓英格蘭國王亨利八世和一直沒有生出兒子的凱瑟琳王后的離婚。

640?wx_fmt=jpeg凱瑟琳王后(圖源百度百科)

還有一些政界的故事。檔案中有一封成吉思汗的孫子貴由大汗給教皇英諾森四世的回信。教皇希望教廷與元朝平等相處,貴由大汗卻一臉懵逼:你是在搞笑麼?快帶著你們歐洲的國王們來臣服我們,不然會捱打哦。

640?wx_fmt=jpeg元定宗 孛兒只斤·貴由(圖源百度百科)

另外檔案中還有一些科技文藝界人物與教廷的通訊,伏爾泰、莫扎特都給教廷寫過信,甚至米開朗基羅還給教廷寫信,要求儘快支付自己被拖欠了三個月的工資。

梵蒂岡祕密檔案記錄瞭如此多歷史軼事,但這些內容對普通人甚至學者都是不可企及的。教廷的一般規矩是在75年後公開檔案,但是這長達53英里的書架上的檔案中,只有幾毫米厚的文件被掃描為電子版,而其中轉錄成文字格式的少之又少。符合條件的學者如果需要查詢檔案,需要親自跑到梵蒂岡,辦好手續後在53英里的檔案中一頁一頁的翻。

640?wx_fmt=jpeg

如此麻煩的查閱方式讓檔案的價值難以被挖掘。所以,In Codice Ratio專案組決定用AI+OCR(Optical Character Recognition,光學字元識別)技術轉錄這53英里的梵蒂岡祕密檔案。

拼圖分割法:讓OCR識別連體字

用OCR來識別文字並不是什麼新鮮技術,識別英文等字母文字的時候,OCR技術把有一定間距的符號識別為一個個的字母,再依據其形狀判斷是哪個字母,然後把字母轉錄為ASCII碼,所以文件就變成了方便搜尋查閱的電子版。

OCR雖然可以方便的識別印刷文字,但對於梵蒂岡祕密檔案這類手寫文字卻無能為力。比如下面這一段13世紀早期、用卡羅琳小寫體撰寫的文字:

640?wx_fmt=png

由於傳統OCR技術是把單詞分割成一個個字母來識別的,所以對於這類連體字,OCR無法識別字母。有人想出了一個方案,直接讓OCR去識別一個個的單詞,但是,如何讓OCR掌握成千上萬的拉丁文單詞呢?大概需要一個排的中世紀拉丁文專家來辨認不同單詞的圖形。

除了請專家辨認單詞外,還有更簡單的方法幫助OCR識別手寫字母,只要找實習生就可以搞定了。

我們知道,無論中文還是英文,連體字中粗的部分是筆畫,細的部分是筆尖移動造成的虛線,並不是筆畫的一部分。根據這個原則,In Codice Ratio的專家們發明了新的方法——拼圖分割法。拼圖分割法改變了傳統OCR把單詞分成字母的傳統方式,而是是把連在一起的單詞按照筆畫分隔開,系統根據筆畫來判斷是哪個字母,比如這樣:

640?wx_fmt=png

之後,就要讓識別系統判斷對錯:識別出的字母,哪些是真正的字母,哪些是虛線的誤判。

這個工作交給高中生做都可以。於是,In Codice Ratio專案組找了一些高中生,根據高中生們對手寫體的判斷,教給識別系統哪些字母是對的,哪些字母認錯了。

比如字母g。下面圖中,綠色部分是正確的手寫字母g,而紅色部分是識別系統錯判的字母g,學生們從最下方的選項中選出正確的字母g,投餵給識別系統,從而教會系統什麼是真正的字母g。22箇中世紀拉丁文字母都學會之後,這個識別系統就成為了一個能認識手寫體中世紀拉丁文的AI。

clear or dear?

現在的AI版OCR終於能像人類一樣識別連體字了。但是,別忘了總有一些字連人類自己都認不出來。

640?wx_fmt=png

這張圖上寫的是“it’s clear to me”還是“it’s dear to me”呢?由於字母d和字母cl的筆畫完全一樣,OCR和人類都難以分清。而在中世紀拉丁文中,這種狀況更為普遍。

640?wx_fmt=png

看這個詞,第一個字母是a,最後一個字母是o,但中間的字母難以辨認。所以,這個單詞是aimo、amio、aniio、ainio、aiino還是aiiiio?

都不是,正確答案是anno,拉丁文中表示“年”的單詞。和人類一樣,拼圖分割AI識別出了a和o,但是難以判斷中間的四條豎線是什麼字母。

為了解決這個問題,In Codice Ratio 團隊找了包含150萬個拉丁文單詞的電子文件,分析了裡面的字母組合,藉以教給OCR一些拼寫常識——比如拉丁文中是沒有iiii這種字母組合的,nn更為常見。

準確率高達96%

經過這樣的技術改進之後,擁有AI能力的OCR終於可以開始閱讀梵蒂岡祕密檔案了。In Codice Ratio 團隊讓OCR轉錄了18000頁檔案。不過,轉錄結果不是特別成功,大約三分之一的文字中出現了錯誤,這讓正常人難以閱讀。

不過,對於其中字母的識別,這套OCR系統準確率高達96%,並且用到的技術方法完全可以拿來識別除拉丁文之外的其他文獻。經過對AI更專業的訓練後,它可以識別各大文明的古代文獻並電子化。

所以,為了給AI提升難度,青銅銘文了解一下?

640?wx_fmt=jpeg圖片來自故宮博物院

加入社群

量子位AI社群16群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章