達觀AI+知識圖譜技術在數字檔案館建設中的探索

達觀資料DataGrand發表於2022-01-14
lQLPDhsMWmyNyK7NAczNBDiw92k3yfatUlUB5Omm5AC8AA_1080_460

近十年來,檔案管理工作由原來的紙質檔案管理轉向了電子檔案的管理,電子檔案的產生對徹底改變了原有的檔案管理模式,同時對電子檔案的應用是電子政務建設過程中避不開的重要問題。利用人工智慧技術對現有檔案系統進行升級改造,對存量檔案進行加工,使得活化檔案內容,更便於應用,是新時代的檔案建設的一大要務。國家對檔案管理和應用工作一直十分重視,多年來對檔案管理工作的智慧化提出了具體的建設要求,如下表所示:

時間線 規劃 指導意見
2014 《關於加強和改進新形勢下檔案工作的意見》 各檔案館(室)要加強對檔案資訊的分析研究、綜合加工、深度開發,提供深層次、高質量檔案資訊產品,不斷挖掘檔案的價值,努力把“死檔案”變成“活資訊”、把“檔案庫”變成“思想庫””。
2021 《“十四五”全國檔案事業發展規劃》 “積極探索知識管理、人工智慧、數字人文等技術在檔案資訊深層加工和利用中的應用。”


另一方面,近年來智慧城市如火如荼的建設,帶動了城市各種公共設施的智慧化,相繼出現了“智慧交通”、“智慧醫療”、“智慧法院”、“智慧圖書館”等概念和應用。在此背景下,檔案界提出了“智慧檔案館”的設想。
 
智慧檔案館是智慧城市中的一個子系統,“是適應大資料背景下的第四代檔案館,是繼數字檔案館之後檔案資訊化發展的高階形態”。智慧檔案館的目標是實現 跨時空的檔案資訊資源共享、跨平臺的服務整合,使使用者可以一站式獲取所需要的檔案資訊資源。

但是現有的“智慧檔案館”建設大多還停留在檔案館本身的建設、裝置、管理模式的改變。對於檔案本身攜帶資訊的活化、應用服務卻沒有進展。達觀資料認為真正的智慧檔案館應該是充分運用各類技術手段,對檔案資源管理並開發。檔案館執行等各類資訊進行 感知、挖掘,經綜合分析和提煉萃取形成智慧資訊,並將其應用於 決策、管理和服務。

隨著計算機資訊科技的發展,檔案資料的型別日趨多樣化,由單一的結構化資料變得多樣化,檔案資料規模也顯著增長。相比以前的紙質檔案,數字化檔案帶來了更豐富的資訊資源,同時也對檔案資訊的檢索提出了挑戰。

現階段 大多數數字化檔案館採用的儲存檢索方案是使用 關係型資料庫儲存檔案編號和人工著錄項,再基於關鍵字進行匹配檢索。這種儲存檢索方案忽略了檔案資料內部隱含的大量資訊以及檔案資料之間的關聯關係,無法完全滿足使用者日益增加的檢索需求,更無法發掘檔案資料之間隱含的關係。達觀資料所擅長的 AI+知識圖譜技術改變檔案資料的儲存方式和檔案資源的使用方式,為檔案智慧檢索提供一種新的思路。

2012年穀歌公司提出了知識圖譜(KonwledgeGraph),初衷是為了提高其搜尋引擎的準確度和使用者的搜尋體驗。本質上,知識圖譜作為一張巨大的語義網路,描述了現實生活中存在的各種實體、概念及其關係。實體、概念使用節點來描述,屬性、關係使用邊來描述。現在各種大規模的知識庫均可歸類於知識圖譜的範疇。

99B4E85C-5A5A-4f48-907A-54B0D1519E0F

圖 基於達觀資料文字智慧分析的技術,可以實現結構化和非結構化的資料都可以用來構建知識圖譜


基於近些年人工智慧技術的快速發展,知識圖譜技術因其強大的語義處理能力和資訊關聯能力,在垂直領域中也得到了廣泛的關注。垂直領域的知識圖譜和通用型知識圖譜在資料來源、資訊廣度、知識準確率上都有很大的差異。相比之下,垂直領域的知識圖譜的 資料量較小、資料質量較高、知識更為集中因此構建垂直領域知識圖譜通常需要針對該領域特定的資料來源採取定製化的特徵提取方案才能夠高效地從資料中抽取出資料實體。構建檔案領域知識圖譜將為多源異構的檔案資料提供關聯,充分挖掘檔案之間的關聯關係,為檔案智慧檢索提供了一種新的思路。
 
檔案本體通俗來說就是檔案領域內部各個層次的詞彙、概念和它們之間相關關聯的明確界定。常用的本體構建的方法有骨架法、Methontology法、迴圈獲取法、TOVE企業建模法、七步構建法等,透過綜合比較以上幾種本體構建方法並結合檔案領域特點後建議選用史丹佛大學醫學院(StanfordUniversitySchoolOfMedicine)釋出的七步法來構建檔案本體,具體步驟如下圖所示:

實際而言在建立檔案知識圖譜的過程中,需要根據檔案的不同型別和應用場景來建立實體和關係,舉例來說, 城建檔案側重於大量的實施方案、規劃圖紙、檢驗單據等, 人事檔案側重於身份材料、經歷證明、獎懲資訊等,不同的場景需要抽抽取的實體和關係千差萬別。因此在整個實體的建立過程中需要根據不同的場景和應用,建立不同模式的圖譜,以保證圖譜內容契合於業務需求。

A167D73C-25CC-45b8-85E3-9AF1CF247F36

圖 對於檢測或驗收單據的核心要素抽取

C0CB1E97-14DC-4c96-B46B-D6851E242F0B

圖 基於表格資料的核心要素抽取

C00992AA-9B24-487e-8E13-5833B18522B9

圖 基於圖紙的核心要素抽取,及圖紙文字資訊索引入庫

D8C4BFC3-031B-40c8-8E59-E7575754138B

圖 各個來源抽取的要素透過知識圖譜進行關聯,同時可以對檢驗單據和圖紙的文字內容進行搜素


同時,知識圖譜的應用將不光基於文字資訊實體的抽取和關係搭建,存檔的 海量影像資訊也可以進行 知識圖譜化,便於 群眾對檔案資訊的 檢索和應用。下面的例子就是說明了怎麼從圖片中抽取實體和關係來建立知識圖譜。(吳寶康教授是我國著名檔案學家、新中國檔案學和檔案教育奠基人)

lQLPDhsNHDt1zVLNAxXNBDiw0veBwtUkqN0B5icwKcAQAA_1080_789

圖 摘自中國電子科技集團公司電子科學研究院論文《檔案知識圖譜構建技術研究》論文編號:8300015-2019-S14 作者:郭雪薇


達觀資料現在已經與全國多家檔案館進行合作,深入探索人工智慧技術在檔案管理應用領域的發展,預計在不久的將來就會有實際的檔案資料圖譜案例落地。未來達觀資料將在檔案事業發展的“十四五”建設中發揮自己的核心技術能力。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69997703/viewspace-2852342/,如需轉載,請註明出處,否則將追究法律責任。

相關文章