大資料與雲端計算概論
大資料的關鍵技術
(1) 資料處理:自然語言處理技術;多媒體內容理解;圖文轉換技術等。
(2)統計和分析: A/B test;地域佔比;_文字情感分析;語義分析技術。
(3) 資料探勘:關聯規則分析;分類;聚類。
(4)模型預測:預測模型;機器學習;建模模擬;模式識別技術等。
2.大資料預處理技術
(1) 資料採集: ETL (Extract-Transform-Load) 工具。
(2)資料存取:關聯式資料庫; NoSQL; SQL等。
(3)基礎架構支援:雲端儲存;分散式檔案系統等。
(4) 計算結果展現:雲端計算;標籤雲;關係圖等。
3.資料儲存
(1)結構化資料:海量資料的查詢、統計、更新等操作效率低。
2) 非結構化資料:圖片、視訊、Word、 PDF、等檔案儲存,不利於檢索、查詢和儲存。(3) 半結構化資料:要麼轉換為結構化儲存,要麼按非結構化儲存。
4.資料計算
資料採集,又稱資料獲取,是利用一種裝置,從系統外部採集資料並輸入到系統內部的- -個介面。資料採集技術廣泛引用在各個領域。比如攝像頭,麥克風,都是資料採集工具。資料採集,還有一種解釋就是網站資料的採集
資料處理的基本目的是從大量的、雜亂無章的、難以理解的資料中抽取並推匯出對於某些特定的人們來說是有價值、有意義的資料。
資料處理是系統工程和自動控制的基本環節。資料處理貫穿於社會生產和社會生活的各個領域。資料處理技術的發展及其應用的廣度和深.度,極大地影響著人類社會發展的程式。
資料處理的過程大致分為資料的準備、處理和輸出3個階段。
資料採集
資料採集的方法
1.系統日誌採集:使用日誌收集系統,收集業務日誌資料供離線和線上的分析系統使用。網路資料採集:通過網路爬蟲或網站公開API等方式從網站上獲取資料信
2.息,可以將非結構化資料以結構化的方式儲存。資料庫採集:在採集端部署大量資料庫,並對如何在這些資料庫之間進
3.行負載均衡和分片進行深入的思考和設計。
資料清洗
為什麼進行資料清洗
現實世界中的資料是“髒”的
髒資料
殘缺資料:缺少屬性值,缺少某些屬性,或者僅包含聚集類資料。
噪聲資料:可能出現的相對於真實值的偏差或錯誤,主要包括:錯誤資料、假資料、異常資料。
冗餘資料:既包括重複的資料,也包括對分析處理的問題無關的資料。
當元組的某個屬性殘缺時,忽略整個元組
弊端:採用忽略元組的方法,意味著不能使用該元組的剩餘屬性值,而這些剩餘屬性值很可能是分析問題所必須的。除非元組有多個屬性殘缺,否則該方法不是很有效。當某個屬性有很多元組缺失時,它的效能特別差。
處理殘缺資料
通過人工填寫或者設立某一規則確定殘缺值的填寫內容
僅適用於資料量小且缺失值少的情況,當資料量很大、缺失很多值時,該方法可能行不通。需要注意的是,在某些情況下,缺失值並不意味資料有錯誤。
可以使用常量、屬性均值、類似屬性均值、推測缺失值等方法確定缺失值並填寫。
相關文章
- 雲端計算與大資料[4]大資料
- 大資料與雲端計算:並非天作之合大資料
- CSMBD21大資料與雲端計算大資料
- 雲端計算大資料面試題,雲端計算大資料面試題集錦大資料面試題
- 雲端計算和大資料大資料
- 大資料概論(2)大資料
- 五舟科技承辦“雲端計算大資料與智慧製造論壇”大資料
- 大資料與雲端計算有什麼關係?大資料
- 雲端計算與大資料有什麼關係?大資料
- 大資料技術概論大資料
- 雲端計算與大資料要學啥?零基礎能學雲端計算嗎?大資料
- 雲端計算平臺概覽
- 雲端計算和大資料的區別與關係大資料
- 大資料技術之大資料概論大資料
- 人工智慧+大資料+雲端計算人工智慧大資料
- 大資料時代下的雲端計算大資料
- 雲端計算和大資料學哪個好?雲端計算學習大資料
- 學雲端計算與大資料前景如何?雲端計算是怎麼分類的?大資料
- 《雲端計算》)——超越桌面:雲端計算導論
- 學習雲端計算怎麼樣?大資料比雲端計算更好嗎?大資料
- 雲端計算資料
- 政策支援奠定雲端計算與大資料發展基礎大資料
- 大資料與雲端計算方向路線圖(經典分享)大資料
- 大資料,雲端計算學習路線大資料
- 大資料 機器學習 演算法概論大資料機器學習演算法
- 計算機網路概論計算機網路
- 人工智慧,大資料,雲端計算大雜燴人工智慧大資料
- 工業大資料漫談17:雲端計算與工業大資料的關係大資料
- 雲端計算資料與資訊保安防護
- 總理力挺雲端計算和大資料大資料
- 雲端計算和資料
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 認識物聯網系列—物聯網與雲端計算、大資料大資料
- 【雲端計算與大資料處理技術】公開課實況大資料
- 大資料和雲端計算註定“糾纏不清”?大資料
- 雲端計算時代企業要如何迎接大資料?大資料
- 雲端計算和大資料有什麼關係?大資料
- 雲端計算時代資料安全的三大竅門