一篇文章詳解大資料技術和應用場景 大資料

資料工程師陳晨發表於2018-10-22

什麼是大資料
說起大資料,估計大家都覺得只聽過概念,但是具體是什麼東西,怎麼定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大資料公司,業務形態則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大資料,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大資料時代》提到了大資料的4個特徵:

在這裡插入圖片描述

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

一個是數量大

一個是價值大

一個是速度快

一個是多樣性

第一個是數量比較大,只有資料體量達到了PB級別以上,才能被稱為大資料。1PB等於1024TB,1TB等於1024G,那麼1PB等於1024*1024個G的資料。

第二個是價值大,你如果有1PB以上的全國所有20-35年輕人的上網資料的時候,那麼它自然就有了商業價值,比如通過分析這些資料,我們就知道這些人的愛好,進而指導產品的發展方向等等。如果有了全國幾百萬病人的資料,根據這些資料進行分析就能預測疾病的發生,這些都是大資料的價值。

第三個就是多樣性,如果只有單一的資料,那麼這些資料就沒有了價值,比如只有單一的個人資料,或者單一的使用者提交資料,這些資料還不能稱為大資料,所以說大資料還需要是多樣性的,比如當前的上網使用者中,年齡,學歷,愛好,性格等等每個人的特徵都不一樣,這個也就是大資料的多樣性,當然瞭如果擴充套件到全國,那麼資料的多樣性會更強,每個地區,每個時間段,都會存在各種各樣的資料多樣性。

第四個是速度快,就是通過演算法對資料的邏輯處理速度非常快,1秒定律,可從各種型別的資料中快速獲得高價值的資訊,這一點也是和傳統的資料探勘技術有著本質的不同。

大資料的行業應用

在這裡插入圖片描述

大資料無處不在,大資料應用於各個行業,包括金融、汽車、餐飲、電信、能源、體能和娛樂等在內的社會各行各業都已經融入了大資料的印跡。

製造業,利用工業大資料提升製造業水平,包括產品故障診斷與預測、分析工藝流程、改進生產工藝,優化生產過程能耗、工業供應鏈分析與優化、生產計劃與排程。

金融行業,大資料在高頻交易、社交情緒分析和信貸風險分析三大金融創新領域發揮重大作用。

汽車行業,利用大資料和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活。

網際網路行業,藉助於大資料技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。

電信行業,利用大資料技術實現客戶離網分析,及時掌握客戶離網傾向,出臺客戶挽留措施。

能源行業,隨著智慧電網的發展,電力公司可以掌握海量的使用者用電資訊,利用大資料技術分析使用者用電模式,可以改進電網執行,合理設計電力需求響應系統,確保電網執行安全。

物流行業,利用大資料優化物流網路,提高物流效率,降低物流成本。

城市管理,可以利用大資料實現智慧交通、環保監測、城市規劃和智慧安防。

生物醫學,大資料可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,瞭解更多的生命奧祕。

體育娛樂,大資料可以幫助我們訓練球隊,決定投拍哪種題財的影視作品,以及預測比賽結果。

安全領域,政府可以利用大資料技術構建起強大的國家安全保障體系,企業可以利用大資料抵禦網路攻擊,警察可以藉助大資料來預防犯罪。

個人生活, 大資料還可以應用於個人生活,利用與每個人相關聯的“個人大資料”,分析個人生活行為習慣,為其提供更加周到的個性化服務。

大資料的價值,遠遠不止於此,大資料對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響。

大資料使用的技術
說起大資料,大資料有三個層資料採集、儲存、計算三層。

在這裡插入圖片描述

第一個是資料採集層,以App、saas為代表的服務。

大資料基礎階段需掌握的技術有:Linux、Docker、KVM、MySQL基礎、Oracle基礎、MongoDB、redis以及hadoopmapreduce hdfs yarn等。

在這裡插入圖片描述

第二個資料儲存層,比如雲端儲存,需掌握的技術有:hbase、hive、sqoop等。

比如:Hadoop作為一個開源的框架,專為離線和大規模資料分析而設計,HDFS作為其核心的儲存引擎,已被廣泛用於資料儲存。HBase,是一個分散式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是資料儲存、NoSQL資料庫。

HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴充套件,通過不斷增加廉價的商用伺服器,來增加計算和儲存能力。

在這裡插入圖片描述

第三個是資料計算應用層,以資料為基礎,為將來的移動社交、交通、教育,金融進行服務,涉及到大資料架構設計階段需掌握的技術有:Flume分散式、Zookeeper、Kafka等,以及大資料實時計算階段需掌握的技術有:Mahout、Spark、storm。

大資料的崗位

在這裡插入圖片描述

1.資料分析師Data analyst

指熟悉相關業務,熟練搭建資料分析框架,掌握和使用相關的分析常用工具和基本的分析方法,進行資料蒐集、整理、分析,針對資料分析結論給管理銷售運營提供指導意義的分析意見。

2.資料架構師Data architect

對Hadoop解決方案的整個生命週期進行引導,包括需求分析,平臺選擇,技術架構設計,應用設計和開發,測試和部署。深入掌握如何編寫MapReduce的作業及作業流的管理完成對資料的計算,並能夠使用Hadoop提供的通用演算法, 熟練掌握Hadoop整個生態系統的元件如: Yarn,HBase、Hive、Pig等重要元件,能夠實現對平臺監控、輔助運維繫統的開發。

3.大資料工程師Big DataEngineer

收集和處理大規模的原始資料(包括指令碼編寫,網頁獲取,呼叫APIs,編寫SQL查詢等);將非結構化資料處理成適合分析的一種形式,然後進行分析;根據所需要的和專案分析商業決策。

4.資料倉儲管理員

Data warehousemanager:指定並實施資訊管理策略;協調和管理的資訊管理解決方案;多個專案的範圍,計劃和優先順序安排;管理倉庫的各個方面,比如資料外包,移動,質量,設計和實施。

5.資料庫管理員Database manager

提高資料庫工具和服務的有效性;確保所有的資料符合法律規定;確保資訊得到保護和備份;做定期報告;監控資料庫效能;改善使用的技術;建立新的資料庫;檢測資料錄入程式;故障排除。

6.商業智慧分析員Businessintelligence analyst

就工具,報告或者後設資料增強來進行傳播資訊;進行或協調測試,以確保情報的定義與需求相一致;使用商業智慧工具來識別或監測現有和潛在的客戶;綜合目前的商業只能和趨勢資料,來支援採取行動的建議;維護或更新的商業智慧工具,資料庫,儀表板,系統或方法;及時的管理使用者流量的商業情報。

  • 很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

相關文章