大資料與雲端計算概論

weixin_52629010發表於2020-12-18

大資料的關鍵技術
(1) 資料處理:自然語言處理技術;多媒體內容理解;圖文轉換技術等。
(2)統計和分析: A/B test;地域佔比;_文字情感分析;語義分析技術。
(3) 資料探勘:關聯規則分析;分類;聚類。
(4)模型預測:預測模型;機器學習;建模模擬;模式識別技術等。
2.大資料預處理技術
(1) 資料採集: ETL (Extract-Transform-Load) 工具。
(2)資料存取:關聯式資料庫; NoSQL; SQL等。
(3)基礎架構支援:雲端儲存;分散式檔案系統等。
(4) 計算結果展現:雲端計算;標籤雲;關係圖等。
3.資料儲存
(1)結構化資料:海量資料的查詢、統計、更新等操作效率低。
2) 非結構化資料:圖片、視訊、Word、 PDF、等檔案儲存,不利於檢索、查詢和儲存。(3) 半結構化資料:要麼轉換為結構化儲存,要麼按非結構化儲存。
4.資料計算
資料採集,又稱資料獲取,是利用一種裝置,從系統外部採集資料並輸入到系統內部的- -個介面。資料採集技術廣泛引用在各個領域。比如攝像頭,麥克風,都是資料採集工具。資料採集,還有一種解釋就是網站資料的採集
資料處理的基本目的是從大量的、雜亂無章的、難以理解的資料中抽取並推匯出對於某些特定的人們來說是有價值、有意義的資料。
資料處理是系統工程和自動控制的基本環節。資料處理貫穿於社會生產和社會生活的各個領域。資料處理技術的發展及其應用的廣度和深.度,極大地影響著人類社會發展的程式。
資料處理的過程大致分為資料的準備、處理和輸出3個階段。
資料採集
資料採集的方法
1.系統日誌採集:使用日誌收集系統,收集業務日誌資料供離線和線上的分析系統使用。網路資料採集:通過網路爬蟲或網站公開API等方式從網站上獲取資料信
2.息,可以將非結構化資料以結構化的方式儲存。資料庫採集:在採集端部署大量資料庫,並對如何在這些資料庫之間進
3.行負載均衡和分片進行深入的思考和設計。
資料清洗
為什麼進行資料清洗
現實世界中的資料是“髒”的
髒資料
殘缺資料:缺少屬性值,缺少某些屬性,或者僅包含聚集類資料。
噪聲資料:可能出現的相對於真實值的偏差或錯誤,主要包括:錯誤資料、假資料、異常資料。
冗餘資料:既包括重複的資料,也包括對分析處理的問題無關的資料。
當元組的某個屬性殘缺時,忽略整個元組
弊端:採用忽略元組的方法,意味著不能使用該元組的剩餘屬性值,而這些剩餘屬性值很可能是分析問題所必須的。除非元組有多個屬性殘缺,否則該方法不是很有效。當某個屬性有很多元組缺失時,它的效能特別差。
處理殘缺資料
通過人工填寫或者設立某一規則確定殘缺值的填寫內容
僅適用於資料量小且缺失值少的情況,當資料量很大、缺失很多值時,該方法可能行不通。需要注意的是,在某些情況下,缺失值並不意味資料有錯誤。
可以使用常量、屬性均值、類似屬性均值、推測缺失值等方法確定缺失值並填寫。

相關文章