大資料處理的關鍵技術及應用

大資料小知識發表於2022-05-19

  資料處理是對紛繁複雜的海量資料價值的提煉,而其中最有價值的地方在於預測性分析,即可以通過資料視覺化、統計模式識別、資料描述等資料探勘形式幫助資料科學家更好的理解資料,根據資料探勘的結果得出預測性決策。

  一、大資料採集技術

  資料是指通過RFID射頻資料、感測器資料、社交網路互動資料及移動網際網路資料等方式獲得的各種型別的結構化、半結構化(或稱之為弱結構化)及非結構化的海量資料,是大資料知識服務模型的根本。重點要突破分散式高速高可靠資料爬取或採集、高速資料全映像等大資料收集技術;突破高速資料解析、轉換與裝載等大資料整合技術;設計質量評估模型,開發資料質量技術。

  大資料採集一般分為:

  1)大資料智慧感知層:主要包括資料感測體系、網路通訊體系、感測適配體系、智慧識別體系及軟硬體資源接入系統,實現對結構化、半結構化、非結構化的海量資料的智慧化識別、定位、跟蹤、接入、傳輸、訊號轉換、監控、初步處理和管理等。必須著重攻克針對大資料來源的智慧識別、感知、適配、傳輸、接入等技術。

  2)基礎支撐層:提供大資料服務平臺所需的虛擬伺服器,結構化、半結構化及非結構化資料的資料庫及物聯網路資源等基礎支撐環境。重點攻克分散式虛擬儲存技術,大資料獲取、儲存、組織、分析和決策操作的視覺化介面技術,大資料的網路傳輸與壓縮技術,大資料隱私保護技術等。

  二、大資料預處理技術

  完成對已接收資料的辨析、抽取、清洗等操作。

  1)抽取:因獲取的資料可能具有多種結構和型別,資料抽取過程可以幫助我們將這些複雜的資料轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。

  2)清洗:對於大資料,並不全是有價值的,有些資料並不是我們所關心的內容,而另一些資料則是完全錯誤的干擾項,因此要對資料通過過濾“去噪”從而提取出有效資料。

  三、大資料儲存及管理技術

  大資料儲存與管理要用儲存器把採集到的資料儲存起來,建立相應的資料庫,並進行管理和呼叫。重點解決複雜結構化、半結構化和非結構化大資料管理與處理技術。主要解決大資料的可儲存、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分散式檔案系統(DFS)、能效優化的儲存、計算融入儲存、大資料的去冗餘及高效低成本的大資料儲存技術;突破分散式非關係型大資料管理與處理技術,異構資料的資料融合技術,資料組織技術,研究大資料建模技術;突破大資料索引技術;突破大資料移動、備份、複製等技術;開發大資料視覺化技術。

  開發新型資料庫技術,資料庫分為關係型資料庫、非關係型資料庫以及資料庫快取系統。其中,非關係型資料庫主要指的是NoSQL資料庫,分為:鍵值資料庫、列存資料庫、圖存資料庫以及文件資料庫等型別。關係型資料庫包含了傳統關聯式資料庫系統以及NewSQL資料庫。

  開發大資料安全技術:改進資料銷燬、透明加解密、分散式訪問控制、資料審計等技術;突破隱私保護和推理控制、資料真偽識別和取證、資料持有完整性驗證等技術。

  四、大資料分析及挖掘技術

  大資料分析技術:改進已有資料探勘和機器學習技術;開發資料網路挖掘、特異群組挖掘、圖挖掘等新型資料探勘技術;突破基於物件的資料連線、相似性連線等大資料融合技術;突破使用者興趣分析、網路行為分析、情感語義分析等面向領域的大資料探勘技術。

  資料探勘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。

  大資料處理的關鍵技術及應用.中琛魔方大資料平臺表示大資料本身是一種現象而不是一種技術。大資料技術是一系列使用非傳統的工具來對大量的結構化、半結構化和非結構化資料進行處理,從而獲得分析和預測結果的資料處理技術。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69936596/viewspace-2895298/,如需轉載,請註明出處,否則將追究法律責任。

相關文章