好程式設計師大資料培訓分享大資料的影響一
好程式設計師大資料培訓分享 大資料 的影響一 1 、 大資料對科學研究的影響 。
著名資料庫專家吉姆·格雷(Jim Gray)博士觀察並總結認為,人類自古以來在科學研究上先後歷經了實驗、理論、計算和資料四種正規化,具體如下:
(1)第一種正規化:實驗
在最初的科學研究階段,人類採用實驗來解決一些科學問題,著名的比薩斜塔實驗就是一個典型例項。1590年,伽利略在比薩斜塔上做了“兩個鐵球同時落地”的實驗,得出了重量不同的兩個鐵球同時下落的結論,從此推翻了亞里士多德“物體下落速度和重量成比例”的學說,糾正了這個持續了1 900年之久的錯誤結論。
(2)第二種正規化:理論
隨著科學的進步,人類開始採用各種數學、幾何、物理等理論,構建問題模型和解決方案。比如牛頓第一定律、牛頓第二定律、牛頓第三定律構成了牛頓力學的完整體系,奠定了經典力學的概念基礎,它的廣泛傳播和運用對人們的生活和思想產生了重大影響,在很大程度上推動了人類社會的發展與進步。
(3)第三種正規化:計算
隨著1946年人類歷史上第一臺計算機ENIAC的誕生,人類社會開始步入計算機時代,科學研究也進入了一個以“計算”為中心的全新時期。透過設計演算法並編寫相應程式輸入計算機執行,人類可以藉助於計算機的高速運算能力去解決各種問題。計算機具有儲存容量大、運算速度快、精度高、可重複執行等特點,是科學研究的利器,推動了人類社會的飛速發展
(4)第四種正規化:資料
隨著資料的不斷累積,其寶貴价值日益得到體現,物聯網和雲端計算的出現,更是促成了事物發展從量變到質變的轉變,使人類社會開啟了全新的大資料時代。在大資料環境下,一切將以資料為中心,從資料中發現問題、解決問題,真正體現資料的價值。大資料將成為科學工作者的寶藏,從資料中可以挖掘未知模式和有價值的資訊,服務於生產和生活,推動科技創新和社會進步。
2 大資料對思維方式的影響
維克托·邁爾·舍恩伯格在《大資料時代:生活、工作與思維的大變革》一書中明確指出,大資料時代最大的轉變就是思維方式的3種轉變:全樣而非抽樣、效率而非精確、相關而非因果。
(1)全樣而非抽樣
過去,由於資料儲存和處理能力的限制,在科學分析中,通常採用抽樣的方法,即從全集資料中抽取一部分樣本資料,透過對樣本資料的分析,來推斷全集資料的總體特徵。通常,樣本資料規模要比全集資料小很多,因此,可以在可控的代價內實現資料分析的目的。現在,我們已經迎來大資料時代,大資料技術的核心就是海量資料的儲存和處理,分散式檔案系統和分散式資料庫技術,提供了理論上近乎無限的資料儲存能力,分散式並行程式設計框架MapReduce提供了強大的海量資料並行處理能力。因此,有了大資料技術的支援,科學分析完全可以直接針對全集資料而不是抽樣資料,並且可以在短時間內迅速得到分析結果,速度之快,超乎我們的想象。就像前面我們已經提到過的,谷歌公司的Dremel可以在2~3秒內完成PB級別資料的查詢。
(2)效率而非精確
過去,我們在科學分析中採用抽樣分析方法,就必須追求分析方法的精確性,因為,抽樣分析只是針對部分樣本的分析,其分析結果被應用到全集資料以後,誤差會被放大,這就意味著,抽樣分析的微小誤差,被放大到全集資料以後,可能會變成一個很大的誤差。因此,為了保證誤差被放大到全集資料時仍然處於可以接受的範圍,就必要確保抽樣分析結果的精確性。正是由於這個原因,傳統的資料分析方法往往更加註重提高演算法的精確性,其次才是提高演算法效率。現在,大資料時代採用全樣分析而不是抽樣分析,全樣分析結果就不存在誤差被放大的問題,因此,追求高精確性已經不是其首要目標;相反,大資料時代具有“秒級響應”的特徵,要求在幾秒內就迅速給出針對海量資料的實時分析結果,否則就會喪失資料的價值,因此,資料分析的效率成為關注的核心。
(3)相關而非因果
過去,資料分析的目的,一方面是解釋事物背後的發展機理,比如,一個大型超市在某個地區的連鎖店在某個時期內淨利潤下降很多,這就需要IT部門對相關銷售資料進行詳細分析找出發生問題的原因;另一方面是用於預測未來可能發生的事件,比如,透過實時分析微博資料,當發現人們對霧霾的討論明顯增加時,就可以建議銷售部門增加口罩的進貨量,因為,人們關注霧霾的一個直接結果是,大家會想到購買一個口罩來保護自己的身體健康。不管是哪個目的,其實都反映了一種“因果關係”。但是,在大資料時代,因果關係不再那麼重要,人們轉而追求“相關性”而非“因果性”。比如,我們去淘寶網購物時,當我們購買了一個汽車防盜鎖以後,淘寶網還會自動提示你,與你購買相同物品的其他客戶還購買了汽車坐墊,也就是說,淘寶網只會告訴你“購買汽車防盜鎖”和“購買汽車坐墊”之間存在相關性,但是,並不會告訴你為什麼其他客戶購買了汽車防盜鎖以後還會購買汽車坐墊。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2695560/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 好程式設計師大資料培訓分享大資料的應用程式設計師大資料
- 好程式設計師大資料培訓分享大資料還學嗎?程式設計師大資料
- 好程式設計師大資料培訓分享大資料面試寶典一程式設計師大資料面試
- 好程式設計師大資料培訓分享MapReduce理解程式設計師大資料
- 好程式設計師大資料培訓分享大資料兩大核心技術程式設計師大資料
- 好程式設計師大資料培訓分享mysql資料型別程式設計師大資料MySql資料型別
- 好程式設計師大資料培訓分享HDFS讀流程程式設計師大資料
- 好程式設計師大資料培訓分享spark之Scala程式設計師大資料Spark
- 好程式設計師大資料培訓分享大資料就業方向有哪些?程式設計師大資料就業
- 好程式設計師大資料培訓分享大資料面試寶典三程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典四程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典六程式設計師大資料面試
- 好程式設計師大資料培訓分享大資料面試寶典二程式設計師大資料面試
- 好程式設計師大資料培訓分享:Hadoop叢集同步程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Hadoop的shuffle過程程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享之MySQL資料庫SQL簡介程式設計師大資料MySql資料庫
- 好程式設計師大資料培訓分享Spark技術總結程式設計師大資料Spark
- 好程式設計師大資料培訓分享Hadoop分散式叢集程式設計師大資料Hadoop分散式
- 好程式設計師大資料培訓分享MySQL8.0新特性程式設計師大資料MySql
- 好程式設計師大資料培訓分享Hadoop入門進階程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享settings和mapping的意義程式設計師大資料APP
- 好程式設計師大資料培訓分享怎樣進行大資料入門學習程式設計師大資料
- 好程式設計師大資料培訓分享之《MySQL資料庫》常用函式整理程式設計師大資料MySql資料庫函式
- 好程式設計師大資料培訓分享MySQL資料庫儲存引擎簡介程式設計師大資料MySql資料庫儲存引擎
- 好程式設計師大資料培訓分享之Ambari和ClouderaManager對比程式設計師大資料Cloud
- 好程式設計師大資料培訓分享之hive儲存過程程式設計師大資料Hive儲存過程
- 好程式設計師大資料培訓分享HBase Filter過濾器概述程式設計師大資料Filter過濾器
- 好程式設計師大資料培訓分享如何區分Hive與HBase程式設計師大資料Hive
- 好程式設計師大資料培訓分享Hadoop技術優缺點程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享Spark需要什麼基礎?程式設計師大資料Spark
- 好程式設計師大資料培訓分享之hive常用內部函式程式設計師大資料Hive函式
- 好程式設計師大資料培訓分享Hive基礎知識講解程式設計師大資料Hive
- 好程式設計師大資料培訓分享常見的Hadoop和Spark專案程式設計師大資料HadoopSpark
- 好程式設計師大資料培訓教你快速學習MapReduce程式設計師大資料
- 好程式設計師大資料培訓分享Hadoop入門學習線路圖程式設計師大資料Hadoop
- 好程式設計師大資料培訓分享之hive常見自定義函式程式設計師大資料Hive函式
- 好程式設計師大資料培訓分享關於kafka的幾個重要問題程式設計師大資料Kafka