好程式設計師大資料技術盤點 你都知道嗎

好程式設計師IT發表於2019-05-31

  好程式設計師大資料技術盤點 你都知道嗎, 大資料的概念,指的是無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。而大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。

   第一,資料採集

   ETL工具負責將分佈的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉儲或資料集市中,成為聯機分析處理、資料探勘的基礎。

   第二,資料存取

   關聯式資料庫、 NOSQL、SQL等。

   第三,基礎架構

   雲端儲存、分散式檔案儲存等。

   第四,資料處理

   自然語言處理 (NLP,Natural Language Processing)是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言資訊處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。

   第五,統計分析

   假設檢驗、顯著性檢驗、差異分析、相關分析、 T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。

   第六,資料探勘

   分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和視覺化、Description and Visualization)、複雜資料型別挖掘(Text, Web ,圖形影像,影片,音訊等)。

   第七,模型預測

   預測模型、機器學習、建模模擬。

   第八,結果呈現

   雲端計算、標籤雲、關係圖等。

   其實,關於大資料的技術內容遠不止以上內容, 歡迎繼續關注。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2646377/,如需轉載,請註明出處,否則將追究法律責任。

相關文章