世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

微胖發表於2018-05-06

原文網址 : http://www.jiqizhixin.com/articles/2018-05-06-4

梵蒂岡祕密檔案室是世界上最偉大的歷史收藏館之一，然而也是最無用的收藏館。

偉大之處顯而易見。梵蒂岡祕密檔案室位於梵蒂岡城牆之內，緊鄰使徒圖書館，位於西斯廷教堂北側，祕密檔案室記憶體放的書架甚至可追溯到 12 世紀之前，排列起來可達 53 英里。

其中包括教皇利奧十世下令驅逐馬丁路德的教令、蘇格蘭瑪麗女王被斬首前寫給天主教教宗西都斯五世的求情信。無論是在收藏規模或是收藏範圍上，梵蒂岡祕密檔案室都是無可比擬的。

然而，因為能夠接觸到的檔案極其有限，梵蒂岡祕密檔案室對現代學者來說沒有太多用處。在這長達 53 英里的檔案中，有少部分檔案經過掃描提供線上訪問。僅有更少量的檔案被轉錄為計算機文字能夠進行搜尋。如果你想要研讀其他檔案，你必須申請特殊的訪問許可權，一路通行前往羅馬，最後手動瀏覽每一頁。

一項新興的專案可能會改變現狀。這項技術被稱為 In Codice Ration，將人工智慧和光學字元識別（OCR）軟體相結合來轉錄這些被忽視的文字，首次讓這些記錄文字大白於天下。

如果成功的話，這項技術還能開啟其他隱藏在世界各個歷史檔案館中的檔案。

多年來，OCR 一直用於掃描書籍、列印檔案，但是這項技術並不適用於存放在梵蒂岡內的機密檔案。傳統的 OCR 通過查詢字元之間的空白將單詞分解成一系列字母影象。然後 OCR 將字母影象與記憶體中的字母庫進行比對。找出與影象最匹配的字母，軟體將該字母轉錄為計算機 ASCII 編碼，從而讓文字實現可搜尋化。

然而，這個過程卻只能用於排版後的文字。對於手寫文字，傳統 OCR 的表現很糟糕——而絕大多數古老的梵蒂岡檔案卻正是手寫文字。下圖是一份 12 世紀早期檔案的例子，是以所謂的卡羅琳小寫字型書寫的，看起來就像是書寫體和手寫體的混合：

世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

這個例子的主要問題就在於字母間缺少空格（所謂的髒分割），OCR 無法分辨單個字母的起止位置，因此也就無法統計字母的數量。最終就造成了一個計算上的僵局，有時也被稱為 Sayre 悖論：

OCR 軟體需要將單詞分割成單個字母從而進行識別，但是手寫文字有大量的連寫，軟體要想分割字母必須要先識別字母。這就是矛盾所在，就像是《第 22 條軍規》。

一些電腦科學家想要重新開發 OCR 技術，不再僅識別單個字母，而是識別整個單詞。單從技術上來講，改進的 OCR 很不錯——計算機不會「關心」它們解析的是單詞還是字母。但建立系統並讓它正常運轉是一種負擔，這需要龐大的儲存庫作為支撐。

新型系統的記憶庫不再是寥寥數十個字母，取而代之的是大量普通單詞，系統需要根據這些單詞庫進行單詞影象識別。這意味著你還需要一組對中世紀拉丁語有充分造詣的學者，查閱舊檔，獲取單詞的影象。

事實上，每個單詞你需要幾張不同的影象，來解釋筆跡的不同或者糟糕燈光或是其他因素造成的單詞差異。這是一項艱鉅的任務。

In Codice Ratio 團隊採取了一種新的手寫 OCR 方法避免了上述問題。

這個專案四位主要的科學家分別是——羅馬第三大學的 Paolo Merialdo、Donatella Firmani 和 Elena Nieddu 以及 VSA 的 Marco Maiorino——他們以一種新型的「拼圖分割」方法成功繞開了 Syaer 悖論。

該團隊在論文中表示，拼圖分割沒有將單詞分割為字母，而是分割成一種更接近單個筆畫的東西。OCR 通過將單詞劃分為一系列垂直、水平帶，並尋找區域性最小——更薄的部分，那裡的墨水較少（實際上是畫素更少）。然後軟體則根據這些區域性點分割字母。最終得到的結果是一系列拼圖塊：世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

然而，這些拼圖塊並沒什麼用。但是 OCR 軟體可以用不同的方式把它們重新組合，重現出一些可能的字母。它只需要知道重組後的字元哪些代表真正的字母，哪些是假的。

為了讓軟體學會這一點，研究員們向一個特殊群體尋求幫助：高中生。該團隊在義大利 24 所學校招募學生建立專案自己的記憶庫。學生們登入一個網站，螢幕上出現三個部分的圖片：

世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

最上面綠色方框中包含的就是清晰的中世紀拉丁文「g」的例子。

中間的紅框則是一些 g 的虛假例子，Codice 科學家們稱其為「假朋友」。底部的網格則是程式的核心部分。每一副影象均由幾個拼圖構成，OCR 則嘗試將其組合在一起猜測出可能的字母。

隨後學生們則會判斷 OCR 得出的結果，告訴它哪些猜測是好的，哪些猜測不好。他們把每張圖片和綠框中的例子相比較，如果相匹配，就點選那個核取方塊。

一張又一張圖片，一次又一次的點選，學生們就這麼教會軟體——中世紀拉丁文的 22 個字母（a-i，l-u，還有一些 s 和 d 的不同寫法）到底是什麼樣子的。

軟體最初的設定確實需要一些專家們的努力：學者們需要找出綠框中完美的例子，以及紅框中的「假朋友」。但是一旦他們完成這些工作，後續就不再需要他們了。學生們甚至都不需要能閱讀拉丁文。他們需要做的就是視覺模式匹配。

最初，「他們覺得讓高中生參與進來這個實在是愚蠢，」Merialdo 說道（Merialdo 憑空想出了 In Codice Ratio 專案）。但是現在正是由於這些高中生的努力才使得 OCR 正在學習。每個人都做出自己微小的，簡單的貢獻，確實有助於解決一個複雜的問題，我喜歡這種方式。

當然，最後學生們也幫不上忙了。一旦他們在足夠多的例子上投下「是」的贊成票，軟體就會開始獨立地將碎片拼在一起，自行判斷字母。軟體本身就成為了一個專家——成為了人工智慧。

至少是某方面的人工智慧。事實證明，把拼圖塊拼成看似合理的字母是不夠的。計算機還需要額外的工具來理清手寫文字其他的問題。想一下你正在讀一封信，你會發現這句話：

世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

這究竟是對他們來說是「清楚（clear）」還是「親愛的（dear）」？

很難說，因為構成「d」和「cl」的筆畫實際上是相同的。OCR 軟體面臨同樣的問題，尤其對 Caroline 小寫字型這種高度風格化的文字來說更是如此。你嘗試破譯一下這個單詞：世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下經過不同的拼圖組合的嘗試之後，OCR 舉手回答了。它猜是 aimo、amio、aniio、aiino 中的一種，甚至猜測是童謠『老麥當勞有個農場』中的一個單詞 aiiiio。

事實上，這個單詞是 anno，拉丁語表示「年」，軟體確定了 a 和 o，但是中間這四個平行的柱子讓它有些搞不清。

為了解決這一問題，In Codice Ratio 團隊必須教授軟體一些常識——實踐性智慧。

他們找出了 150 萬本已經數字化的拉丁詞語料庫，對字母進行了兩兩組合以及三三組合。他們確定哪些字母的組合常見，哪些字母的組合不會出現。OCR 軟體使用這些統計資料為不同的字母組合分配概率。最終，軟體發現「nn」比「iiii」更有可能。

對軟體進行改進之後，OCR 終於能夠自主閱讀一些文字了。團隊決定向 OCR 饋送一些 Vatican Registers 檔案，一份超過 18000 頁的檔案，祕密檔案的一部分，其中包括寫給歐洲國王的信件、法律的裁定等。

最初的結果好壞參半。到目前為止，在文字轉錄過程中，有三分之一的單詞包含一個或多個拼寫錯誤，這也讓 OCR 猜錯了字母。（最常見的拼寫錯誤包括 m/n/i 的混淆和另一種分辨不清的情況：字母 f 和一種古式的拉長型 s 寫法）。

不過，該軟體在手寫信件中還是達到了 96% 的正確率。而且，即使是「不完美的轉錄也能提供足夠的資訊和背景資料」，這是很有用的，Merialdo 如是說道。

文章來源：https://www.theatlantic.com/technology/archive/2018/04/vatican-secret-archives-artificial-intelligence/559205/?from=groupmessage&isappinstalled=0

世界上「秘密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下
2018-05-06
AI
破解梵蒂岡祕密檔案，這個AI認識中世紀手寫拉丁文
2018-05-02
AI
Facebook祕密檔案洩露：賺錢（和背鍋）是AI的使命
2018-04-18
AI
室友的Zip加密檔案探祕，Python解決Zip加密檔案探索祕密！
2020-12-22
加密Python
技術管理進階——成長加速的祕密
2022-02-22
因 AI 而設計的語言 LISP
2020-01-19
AILisp
非梵藝術NFT數藏開發/系統技術開發/非梵藝術NFT模式
2023-04-20
模式
關於NSUserDefaults的祕密
2018-12-04
NFT非梵藝術/數藏系統開發/非梵藝術技術開發NFT詳情
2023-04-20
「Python實用祕技04」為pdf檔案批量新增文字水印
2022-01-20
Python
新火種AI｜未來幾年，哪些行業會因為AI而失業？
2023-11-12
AI行業
遊戲AI的生命力源自哪裡？為你揭開MOBA AI的祕密！
2018-06-22
遊戲AI
python 將 CVS檔案轉為HTML檔案
2024-04-18
PythonHTML
將bmp檔案壓縮為jpg檔案
2024-05-14
健康碼背後的祕密，如何利用二維碼技術為企業保駕護航？
2022-01-25
[重慶思莊每日技術分享]-ORA-00235 ：不帶鎖定的控制檔案讀取因併發更新而不一致
2022-01-19
大AI時代即將到來？AI技術能解放多少技術力
2023-04-06
AI
【效能優化的祕密】Hadoop如何將TB級大檔案的上傳效能優化上百倍
2018-11-16
優化Hadoop
聊聊訊息佇列高效能的祕密——零拷貝技術
2021-04-01
佇列
如何將.ipynb檔案轉換為.py檔案
2020-11-10
如何將BigWig 檔案轉化為 bed 檔案
2024-06-22
將ASD光譜儀的.asd檔案轉為文字檔案
2024-10-01
課時28：檔案：因為懂你，所以永恆
2018-08-20
京東商城背後AI技術揭祕（二）——基於商品要素的多模態商品摘要
2020-04-04
AI
學術派 | 基於AI的影片精彩度分析技術
2020-07-15
AI
你的人生有沒有因為意外而改變？你知道哪些因意外而產生價值的事件？
2018-05-09
事件
關於二進位制世界的祕密
2019-09-17
不要將API質量視為技術問題，而更多地是系統問題 - matthe
2021-11-25
API
「Python實用祕技01」複雜zip檔案的解壓
2021-12-09
Python
百度技術開放日即將開啟揭祕春晚紅包背後的技術
2019-03-25
JetBrains 裡不為人知的祕密(6)
2018-10-24
AI
揭祕美圖影像實驗室MTlab的10000點人臉關鍵點技術
2019-05-31
美媒：美國AI的祕密武器——中國人才
2020-06-11
AI
geoserver將layer打包為shp檔案
2018-08-07
Server
Eventloop的祕密
2018-08-10
OOP
為什麼說前端工程師爛大街，那是因為學的都是假技術！
2020-01-15
前端工程師
京東商城背後AI技術揭祕（一）——基於關鍵詞導向的生成式句子摘要
2020-04-03
AI
ai行為識別技術監控
2024-09-04
AI

世界上「祕密最多」的梵蒂岡檔案室，將因為AI技術而大白於天下

相關文章