靈玖軟體:KGB知識圖譜技術是大資料精準挖掘新引擎

ljrj123發表於2018-11-20

  在大資料時代下,資料已發展成經濟社會的強大動力,而且還在提高社會生產力等多方面取得了顯著成效,但同時也會帶來許多問題,比如資料的儲存、穩定性與可靠性,其中,最重要的就屬於資料資訊的安全,且還一度引起人們的廣泛關注。
  大資料,又稱海量資料,即所涉及到的資料量無法通過人工,在一定時間內收集、管理、處理和整理出人們所需要的資訊.其資料規模巨大,資料海量複雜,難以整理成為人類所能解讀的資訊.其挑戰包括採集、管理、儲存、搜尋、共享、分析和視覺化。
  大資料技術是繼雲端計算、物聯網技術之後IT界的又一次顛覆性的變革,有利於整合與共享管理資訊,提高協同工作效率,提高決策的科學性與精準性。但另一方面,資料的開放性要求與個人使用者資訊的私密性相沖突,是政府機構、學術界和工業界不得不長期面對的一個兩難問題。大資料時代、物聯網、可穿戴裝置、智慧汽車……萬物互聯的時代越走越近,安全威脅也如影相隨。“萬物互聯將會是未來的趨勢。”未來不僅手機、電腦、電視機等傳統資訊化裝置會連入網路,家用電器和工廠裝置、基礎設施等也將逐步成為網際網路的端點。
  大資料在帶來了新安全風險的同時也為資訊保安的發展提供了新機遇。大資料正在為安全分析提供新的可能性,對於海量資料的分析有助於資訊保安服務提供商更好的刻畫網路異常行為,從而找出資料中的風險點。
  北京理工大學大資料搜尋與挖掘實驗室張華平主任研發的NLPIR大資料語義智慧分析技術是對語法、詞法和語義的綜合應用。NLPIR大資料語義智慧分析平臺平臺是根據中文資料探勘的綜合需求,融合了網路精準採集、自然語言理解、文字挖掘和語義搜尋的研究成果,並針對網際網路內容處理的全技術鏈條的共享開發平臺。
  其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發的知識圖譜構建與推理引擎,基於漢語詞法分析的基礎上,採用KGB語法實現了實時高效的知識生成,可以從非結構化文字中抽取各類知識,並實現了從表格中抽取指定的內容等。KGB同時可以定義不同的動作,如抽取動作,並能自定義各類後處理程式。利用KGB知識圖譜引擎可以抽取到產品的詳細報價資訊,方便進行下一步的資料探勘與圖譜構建。
  例如KGB語法:
  Knowledge: { [/LE;/w]+[採購方;甲方;發包方; 需方]} +1+{[-(/LE;/w)]20}s+{[(/LE;/w)]}
  Action: Extract
  Argument:甲方單位
  表示的是:
  如果 句首或者標點後,跟了{採購方;甲方;發包方};後面1步內跟的不是標點也不是是句尾,20個單元內的部分,將選中的詞抽取為甲方單位。
  因此,資料探勘技術是一個發展十分快的領域, 隨著對資料探勘技術在各領域日益廣泛的應用,實現了資料資源共享及技術發展的跨域,從而大大提高了工作效率,並帶來巨大的成功。21世紀是資訊時代的社會,“資訊不僅是資源,更是財富”,要實現經濟的騰飛,需依賴高新尖科技的發展,故利用提供的資訊,充分進行資料探勘,則將為資料庫的應用開闢了廣闊的前景,也為人類的文明開闢了一個嶄新的時代。


相關文章