簡單瞭解一下大資料的一些基本概念
一、大資料
1、什麼是大資料?
大資料(Big data或Megadata):大資料,或稱巨量資料、海量資料、大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間達到擷取、管理、處理、並整理成為人類所能解讀的形式的資訊。
2、大資料特點
①Volume:資料量大,包括採集、儲存和計算的量都非常大。大資料的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
②Variety:種類和來源多樣化。包括結構化、半結構化和非結構化資料,具體表現為網路日誌、音訊、影片、圖片、地理位置資訊等等,多型別的資料對資料的處理能力提出了更高的要求。
在這裡還是要推薦下我自己建的大資料學習交流群:529867072,群裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料軟體開發相關的),包括我自己整理的一份最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴加入。
③Value:資料價值密度相對較低,或者說是浪裡淘沙卻又彌足珍貴。隨著網際網路以及物聯網的廣泛應用,資訊感知無處不在,資訊海量,但價值密度較低,如何結合業務邏輯並透過強大的機器演算法來挖掘資料價值,是大資料時代最需要解決的問題。
④Velocity:資料增長速度快,處理速度也快,時效性要求高。比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法儘可能要求實時完成推薦。這是大資料區別於傳統資料探勘的顯著特徵。
⑤Veracity:資料的準確性和可信賴度,即資料的質量。
二、資料倉儲
1、什麼是資料倉儲?
在計算中,資料倉儲(DW或DWH)也稱為企業資料倉儲(EDW),是用於報告和資料分析的系統,被視為商業智慧的核心元件。DWs從一個或多個不同源的綜合資料的中央儲存庫。他們將當前和歷史資料儲存在一個地方,用於為整個企業的工作人員建立分析報告。
2、資料倉儲兩種操作方式的特點
①線上分析處理(OLAP)的特點是交易量相對較低。查詢往往非常複雜,涉及到聚合。對於OLAP系統,響應時間是一種有效性度量。資料探勘技術廣泛使用OLAP應用程式。OLAP資料庫以多維模式(通常為星型模式)儲存彙總的歷史資料。與資料集市相比,OLAP系統通常具有數小時的資料延遲,而資料集市預計延遲將接近一天。OLAP方法用於分析來自多個來源和視角的多維資料。OLAP中的三個基本操作是:總結(合併),鑽取和切片和切塊。
②聯機事務處理(OLTP)的特點是大量短暫的線上事務(INSERT,UPDATE,DELETE)。OLTP系統強調非常快速的查詢處理並保持多訪問環境中的資料完整性。對於OLTP系統,有效性以每秒交易次數來衡量。OLTP資料庫包含詳細和當前的資料。用於儲存事務資料庫的模式是實體模型(通常是3NF)。規範化是對在該系統中資料建模技術的規範。
三、ETL與DM的區別
ETL/Extraction-Transformation-Loading——用於完成DB到DW的資料轉存,它將DB中的某一個時間點的狀態,“抽取”出來,根據DW的儲存模型要求,“轉換”一下資料格式,然後再“載入”到DW的一個過程,這裡需要強調的是,DB的模型是ER模型,遵從正規化化設計原則,而DW的資料模型是雪花型結構或者星型結構,用的是面向主題,面向問題的設計思路,所以DB和DW的模型結構不同,需要進行轉換。
DM/Data Mining/資料探勘——這個挖掘,不是簡單的統計了,他是根據機率論的或者其他的統計學原理,將DW中的大資料量進行分析,找出我們不能直觀發現的規律。
四、Hadoop
1、什麼是Hadoop?
維基百科上面,Hadoop的定義是:一個用java語言編寫的便於大型資料集合的分散式儲存和計算的軟體框架。簡單來說,這是計算機領域的一個開源軟體,任何程式開發者都可以看到它的原始碼,並且進行編譯。它的出現讓大資料的儲存和處理一下子變的快了很多,也便宜了很多。
2、Hadoop特點是什麼?
①高效率(Efficient):分散式雲端計算,採用標準x86架構伺服器大規模叢集實現,每個模組都是一個離散的處理單元,使用平行計算技術,及群內各計算節點負載均衡,當某節點負荷過高時,可智慧的將負荷轉移到其他節點,並支援節點線性平滑擴充套件;分散式雲端儲存,採用x86伺服器的本地硬碟實現,使用分散式檔案系統,每份資料至少儲存在3個節點,保證儲存設計的效能和可靠性目標。
②可靠性(Reliable):能搞自身的維護資料的多個成本,並且在任務失敗是自動的重新部署計算任務
③可擴容性(Scalable):能可靠的儲存和處理PB級的資料
④成本低(Economical):可以透過普通機器組成的伺服器群來分發以及處理資料。這些伺服器群總計可達數千個節點。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69917001/viewspace-2645386/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 簡單瞭解一下GaussDB
- 提的最多的資料庫“索引”,先來簡單瞭解一下資料庫索引
- 簡單的瞭解一下AQS吧AQS
- 如此簡單的 SpringBoot,不瞭解一下Spring Boot
- 簡單瞭解一下pinia的結構
- 簡單瞭解一下壓縮表
- 簡單的小程式小結, 瞭解一下
- 04.簡單瞭解一下Redis企業級資料備份方案Redis
- Mysql鎖機制簡單瞭解一下MySql
- 簡單瞭解一下php的迭代生成器yieldPHP
- 敢與大資料掰手腕,瞭解一下EXCEL的四宗“最”大資料Excel
- 大資料行業年薪幾十萬,這些大資料崗位薪資瞭解一下大資料行業
- 測試人員應該瞭解的一些基本概念
- 大資料初步瞭解大資料
- **大資料hadoop瞭解**大資料Hadoop
- WebSocket 簡單瞭解Web
- JWT簡單瞭解JWT
- 資料庫簡單的一些原理概念資料庫
- 資料結構的一些基本概念資料結構
- 資料視覺化如何實現?4大基本流程瞭解一下!視覺化
- 從最簡單的資料劫持瞭解vue雙向繫結原理Vue
- 瞭解這幾個大資料應用案例,讓你更瞭解大資料!大資料
- Golang介面簡單瞭解Golang
- 簡單瞭解組策略
- 防火牆-簡單瞭解防火牆
- Java 中最大的資料結構:LinkedHashMap 瞭解一下?Java資料結構HashMap
- 自動造資料利器,Faker 瞭解一下?
- 你以為 CSS 只是個簡單的佈局?裝逼指南瞭解一下CSS
- 跟我一起學Redis之Redis事務簡單瞭解一下Redis
- JavaScript裡的資料結構----連結串列,瞭解一下?JavaScript資料結構
- 簡單瞭解負載均衡負載
- 快應用簡單瞭解
- 簡單瞭解python爬蟲Python爬蟲
- Node.js簡單瞭解Node.js
- 簡單瞭解 TiDB 架構TiDB架構
- 大資料是什麼?IPIDEA解析大資料的基本概念大資料Idea
- 簡單的瞭解跨域以及解決方案跨域
- 簡單瞭解一下關於程式碼簽名證書的相關內容