用資料說話,億級海量資料分析效能瓶頸如何破?

dobigdata發表於2020-05-11

【導語】以指紋為代表的生物特徵識別應用正在日趨普遍,隨之而來的則是億級資料量級的資料分析工作。如何讓億級海量資料分析做到又快又準?海鑫科金試用和對比了兩套解決方案,欲知結果如何?請看下文。

資料能幫助企業更高效的生產、輔助企業做出更科學的決策……應該說,資料的重要性已經得到全社會的認同。當然,資料並不是拿來就能用,它必須經過清洗、整合、轉換、分析、呈現等一系列流程後,才能為每個企業所用,這一系列動作統稱為資料分析過程。

顯而易見,資料分析是企業從資料中挖掘價值的關鍵步驟。正因為此,當前,資料分析在網際網路、金融、政府、零售等多個行業呈現越來越廣泛的應用態勢。北京海鑫科金高科技股份有限公司(以下簡稱“海鑫科金”)就是其中的一個代表。

海鑫科金成立於1998年,專注於多生物特徵識別(包括指掌紋、人像、DNA、虹膜、聲紋、足跡識別、筆跡識別等)、公安資訊化綜合應用、影片偵查技術和大資料綜合應用這四大領域。目前,其產品在刑偵、安防、司檢法、出入境及金融、酒店、社保、教育、交通、大型活動管理、場所監控和網際網路應用等社會領域都獲得了廣泛應用。

資料量大,還要求更快更精?

海鑫科金,可以說是典型的資料密集型企業。而伴隨近些年資料量越來越大,資料處理要求越來越高,海鑫科金面臨著巨大的挑戰。

以被普遍應用於案件現場指掌紋採集比對、入所人員捺印指掌紋採集比對、卡口人員捺印指掌紋採集比對、重點人員指掌紋比對等場景的指掌紋識別技術為例。

海鑫科金副總經理/AI研究院院長楊春宇在接受採訪時表示,“指紋解決方案是一個大型的生物特徵識別與認證系統,用來為居民身份證、電子護照和犯罪指紋資料庫鑑定數以百萬、千萬、乃至億計的指紋。隨著更多的指紋新增到資料庫中,以及指紋驗證需求量的增加,我們必須讓自己的技術解決方案滿足大資料時代的需求。”

其實,這樣的變化我們每個人都有切身體會,如今需要指掌紋識別的場景多了,頻次高了。一個最常見的場景就是出國,過海關。

用資料說話,億級海量資料分析效能瓶頸如何破?

大資料時代對指掌紋識別有什麼要求呢?簡單來說,在資料庫變大、指紋驗證量增加的同時,確保效能和精度和之前一致,甚至更高。如果滿足不了效率需求,這套方案的實用性將大打折扣。試想如果過海關需要幾分鐘才能識別一個人,那一天又能透過多少人?

為滿足使用者的實際需求,作為國內指掌紋技術領域翹楚的海鑫科金和英特爾展開了深入的探討。

傲騰,更具價效比的選擇

為什麼選擇英特爾?還得從指紋識別的技術特點說起。

指紋識別比對技術解決方案一般包括資料獲取、預處理、特徵 提取、比對、後處理等主要環節(參見圖1)。相比其它生物特徵識別技術(如人臉識別等),指紋比對是一種典型的CPU及記憶體密集型演算法:指紋系統從現場採集的原始指紋資料,經過預處理和特徵提取之後,會形成結構化的點集,再將其與後臺資料庫中百萬量級的指紋例項進行比對,這時就會涉及大量的邏輯判斷分支,這樣一來,解決方案的效能會嚴重依賴於記憶體資源的可用性,同時對通用計算核心的效能需求也非常高。

用資料說話,億級海量資料分析效能瓶頸如何破?

對CPU和記憶體強依賴,綜觀如今的IT市場,能同時滿足這兩點的,恐怕只英特爾一家。

最終,英特爾和海鑫科金技術團隊選擇了第二代英特爾至強可擴充套件處理器作為目標平臺的核心支撐。與此同時,選擇英特爾傲騰資料中心級持久記憶體作為“二級儲存”來部分地取代傳統記憶體。

特別強調一下,這是對比後的結果。在選型過程中,海鑫科金對純DRAM和用傲騰資料中心級持久記憶體替代部分DRAM兩種方案進行了綜合對比,基準測試結果表明,採用傲騰資料中心級持久記憶體的方案具有很好的價效比優勢。

拿資料說話

為了更直觀的呈現,這裡簡單介紹下測試環境。

用於對比測試的兩套方案都基於標準雙路伺服器,CPU採用第二代英特爾至強鉑金處理器8280,總規模為960GB的指紋比對資料庫被分為96個單體尺寸為 10GB的切片,每個切片包含的記錄條數略高於400萬條,這些資料都存放在容量為1TB的英特爾固態盤DC P3520上。

在這些配置條件相同的前提下,兩套方案的不同之處在於,其中一套採用768G的DDR4記憶體,另一套採用192GB的DDR4記憶體搭配1TB的英特爾傲騰資料中 心級持久記憶體。從成本的角度看,兩者相當。

海鑫科金在兩套環境中執行同樣的海鑫HABIS X指紋比對系統,並測試其記錄查詢效能。結果表明,採用傲騰資料中心級持久記憶體方案的記錄查詢速度(單位:QPS)比純DRAM方案高出26%(如圖2所示)。

用資料說話,億級海量資料分析效能瓶頸如何破?

為什麼會有這麼大的提升?奧秘在於當CPU處於高負載時,在系統從DRAM(快取)載入資料到CPU進行計算的同時,也執行了從傲騰資料中心級持久記憶體載入資料到DRAM(快取)的動作,從而提高了系統進行資料讀取的效率。而且並行處理的批次資料越多,基於傲騰資料中心級持久記憶體的方案取得的相對錶現就越好。

通俗的講,CPU和記憶體之間的通訊是有瓶頸的,一味增加記憶體也並不能在效能上獲得線性增長的效果,而256GB記憶體可不只是比128GB的貴一倍。換句話說,成本的增加和效能的增加不成比例。這是傲騰資料中心級持久記憶體的最大優勢,以遠低於記憶體的價格達到準記憶體的效能。

實際上,雙方技術團隊還做了另外一組測算,如果把兩套方案略作調整,讓兩者的QPS處於相同水平,那麼基於傲騰資料中心級持久記憶體的方案總體擁有成本(TCO)比純DRAM方案會低29%。

更重要的是,這些結果還都是在尚未對系統進行任何最佳化、也沒有對軟體進行任何更改的前提下取得的。這意味著一方面,海鑫科金不用做任何改動就可以將現有解決方案部署到新的至強平臺上,另一方面,未來效能還有比較大的提升空間。英特爾傲騰資料中心級持久記憶體為系統效能的提升給出了一條更為經濟實惠的路徑。

即錄、即比、即反

目前,基於英特爾傲騰資料中心級持久記憶體的海鑫科金雲智慧多生物識別系統 HABIS X已經用於現場測試,在某直轄市相關單位的指掌紋系統建設專案中,新方案各項指標均滿足設計要求,獲得了使用者的充分肯定。

以現場勘查為例,工作人員往往需要對案發現場的指掌紋進行特徵提取和比對,這是一件極為費時費力的工作,環境通常十分複雜,指紋的提取經常遇到多人、重疊、殘缺等情況,嫌疑人的指掌紋往往混雜在事主家人和親友鄰居的指紋裡。採用傳統技術方案對現場指紋進行提取及比對,由於系統效能的侷限,現場人員往往回到單位後才能進行電子化資訊的錄入以及後續的比對,這個繁瑣的流程花費的時間通常會數以天計。

在應用了海鑫科金推出的HABIS X方案後,可以做到“即錄(錄入)、即比 (比對)、即反(反饋)”,在現場當即給出比對結果。這不但提升了資訊錄入的規範性、時效性和質量,而且大幅減輕了基層技術人員的工作負擔,提高了現場人員的工作積極性和事業成就感。

更快、更精準的識別,並不是海鑫科金指掌紋識別系統追求的終點。海鑫科金副總經理、公共安全事業部總經理陳俊就表示,接下來他們還將在移動端、人工智慧,以及雲方面發力。英特爾作為雲端計算和人工智慧的積極倡導者,也會繼續和海鑫科金共同創新,推動指掌紋識別更上一層樓。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2691405/,如需轉載,請註明出處,否則將追究法律責任。

相關文章