浪潮資訊攜手上海華胄以AI助力古籍數字服務平臺轉型升級

全球TMT發表於2022-09-26

北京 2022年9月26日 /美通社/ -- 日前,由上海世紀出版集團統一規劃、上海古籍出版社論證實施的"尚古匯典·古籍數字服務平臺"一期專案正式上線。該平臺是一個基於光學文字識別(OCR)、自然語言處理、大規模語料庫等智慧演算法技術,聚合上海世紀出版集團內部古籍資源,所形成的一個連結並服務古籍整理出版者、古籍專業研究者、傳統文化愛好者的古籍內容生產與知識服務的數字化開放平臺。浪潮資訊與元腦夥伴上海華胄為上海古籍出版社提供技術支援,平臺現已涵蓋古籍整理1168種,總字數超過3億字,並且即將開放古籍OCR、自動標點、自動標引等工具。

AI加速推動古籍整理利用轉型升級          

一直以來,古籍保護主要採用原生性保護方式,即把古籍當作"文物"保護起來,後來出現再生性保護方式,對古籍進行影印再造和影像儲存 此種方式呈現的影像整體質量較低,翻閱難度大,難以滿足讀者和研究人員的需要。近十幾年來,各種古籍資料庫服務開始興起,但是市面上的產品大多良莠不齊,缺少精品。

為增補完善國家古籍數字化基礎資源、全面盤活古籍核心文獻、完善古籍知識生產和服務模式,由上海古籍出版社打造的"尚古匯典·古籍數字服務平臺"於去年9月啟動,一期專案於近期正式上線 使用者可以實現古籍全文檢索、線上閱讀,同時提供聯機字典、紀年換算等實用工具。

在技術上,"尚古匯典·古籍數字服務平臺"將分別籌劃打造以知識生產及知識服務為目標的兩個技術平臺,即以古籍全文識別系統(OCR)、古籍智慧整理系統、古籍智慧演算法平臺為基礎的知識生產平臺,和實現海量古籍文獻在資源層、內容層、語義層的關聯,以此構建的古籍知識服務平臺。

元腦夥伴上海華胄助力打造先進算力底座

古籍的提取並不是一件容易的事情,由於年代久遠、水解、氧化、微生物降解等原因,很多古籍都難完整保留下來,科研人員需要對其進行更大規模的提取,以獲得更多的有效資料。

無論是古籍的分析還是提取,或是針對研究資料的處理,背後都對算力提出了極高的要求。過去科研人員通常使用桌上型電腦和普通的伺服器進行一系列資料分析,單次處理的古籍數量非常有限。隨著古籍技術平臺的升級,科研人員的捕獲能力得到增強,實驗所得的古籍文字量大幅提升,繼而帶來了巨大的資料處理任務,當前算力已經遠遠無法滿足需求。

作為元腦合作伙伴,上海華胄為上海古籍出版社提供最新一代AI旗艦伺服器靈活佈置次級業務系統,保障業務系統的高可用,為古籍研究帶來源源不斷的優質算力,為其搭建高效應用平臺。

該平臺的OCR系統、自動標點與自動標引技術開發都已趨於成熟,其中OCR技術可以在一分鐘以內完成200頁古籍影像的識別,準確率超過93%。OCR輸出的文字在經過自動標點和標引之後,可以快速達到可檢索、便於閱讀的目的,極大方便了學術研究。未來,這一平臺還透過解析上海古籍出版社海量古籍資源內容,對其進行知識結構化揭示,重構原有的古籍內容組織形式,並建立全新的知識模組,實現古籍資源的知識化、專業化服務。

上海古籍出版社副社長吳長青表示,透過採用OCR的文字生成技術、自然語言處理的文字整理與標引等先進技術,大量優秀古籍可以在準確權威的平臺上與公眾、專業研究人員面對面,使用效率大幅提高,有力促進海量優秀傳統文化資訊便利快捷有效利用。

古籍文化不止是義理、訓詁與考證,古代文學的研究也不應該只停留在古籍館與古文工作者的論文中,其價值更在於以古人的感受、思考去慰藉、照亮現代人。浪潮資訊、上海華胄未來將基於元腦AIStore,積極探索大資料、語義網路關聯及知識圖譜等技術在古籍行業的應用,推進中華優秀傳統文化的創造性轉化和創新性發展,並以此賦能古籍整理出版和學術研究、國學傳習。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2916290/,如需轉載,請註明出處,否則將追究法律責任。

相關文章