《大資料的“道”“術”“釋”》----讀書摘錄+思考

weixin_34292287發表於2016-06-07

大家不要忘記以道御術，只有明確什麼是優秀的資料分析，才能使這些武器發揮出效力！－－－－－題記

這本書是看到我老師（大資料營銷課）的朋友圈推薦才買的，看了一下目錄，比較喜歡。就認真的讀了下去，這不是一本講什麼是大資料的書，而是一本為什麼要用到大資料分析的書。這本書的好處是講為什麼，而不是講是什麼？是什麼好講，為什麼難講？同時，這本書符合我看書，買書的習慣。因為現代社會，知識碎片化，我們每天接收到的資訊大量，如何甄別對於我們來說是尤其重要的，感覺也特別適合現階段我的狀態，同時，這本書看完，送人也會是一個好的選擇，好書，非借不能讀也！

大資料的本質是對效率的提升，是對精細化的追求。一上來就講到了大資料本質，有別於其他知識類的書籍。這本書更多的是從哲學思考的角度來組織“道”與“術”這兩部分的。前言部分就提到了這一點：由於種種原因，大多數人都忙於日常生活的瑣事因此他們對於這世界的好奇心都受到了壓抑。同時，對於大資料統計，它也指出了我們的現實：缺少的不是統計知識，而是如何應用技術的實務方法。同時，它提到一個對從事IT業人最重要的知識框架的概念：知識體系！如果不早日形成自己的知識體系，所學知識和專案經驗就如向桌子上倒水，倒再多的水也積存不住！

論“道”

對於資料分析報告，分析就是論點，資料就是論據，兩者缺一不可。

資料分析的核心工作是人對資料指標的發析、思考和解讀，人腦所能承載的資料量是極其有限的。

資料分析的能力不只是掌握統計知識和演算法模型，更多是對業務產品的認識、看法與判斷，這是很難量化的。

做好資料分析與學寫詩文一樣，真正的關鍵在技巧（統計技術）之外，而在於對業務的觀察、思考與感悟，即分析的思路。這一點很是認同，好的資料分析師不一定是一個好的技術人員，但一定是一個好的業務人員。對業務的把控要超越到技術的追求！

只有對業務有充分的調研與思考，才能產生有價值的分析思路。

這一部分，提到了兩個觀點很好，做資料分析人員最好要掌握一些經濟學與心理學的知識，只有這兩方面知識深厚的時候，我們對業務的前景把控才會更加的清晰明確。我們需要對人的心理訴求有較深刻的理解，需要從心理訴求去解讀資料，才能得到有效的結論。

如果我們熟悉經濟學和心理學，面對實際問題的時候，可以更深刻地看到資料背後的人性。

思考的重要性：思考本身也是一種實踐，使人對知識的掌握更加系統化的深入化。

如果沒有主動思考意識，光有經歷和環境，是不能使人成長的。

資料分析常用來驗證思路和啟發靈感，卻不能代表思考本身，而對業務的理解和判斷才是整件事情的靈魂。

業務分析的本質是對業務的全域性認知、深入思考和超前判斷，資料分析只是輔助這種思考完成的手段（驗證思路和啟發思路）。

人對事物的認知並沒有絕對概念，只有相對概念。

以自己的所見所聞為判斷依據是人類的天性，但如果我們的所見所聞只是真實世界的一個抽樣，那麼需要有足夠的理性跳出自己的圈子，以更加巨集觀、總體的統計資料來認知世界。

過於複雜的理論大都是人類沒有掌握真正的本質規律。這一點非常好，我們很多時候，總是想把大資料講是十分高深，艱澀難懂，但是真正的高手會將這些知識以我們熟知的生活小常識來講解明白，所以說，真正的知識，若你不能夠很清晰的講解明白，可能是講解者對知識的理解仍不到位。

無論製作專案彙報還是分析報告，第一要務是展現形式要最大程度地輔助觀點表達，而美觀只是末節。

老闆最關心的是工作成果（產品業績），其次是產品或技術方案，最不關心的是進行了哪些嘗試，以及嘗試的過程。所以，在彙報工作果，第一就是展現你的成果，其次是過程，最後才說你的困難及解決思路。

沒有任何一個資料分析專案的目標是做“資料分析”，而是以資料分析為手段，圍繞一個“明確主題”得出結論。

做好資料分析的關鍵不在於統計技術的應用，而在於對業務的思考和分析。這一個第一部分的點睛之句，可以說，它也道出了大資料分析的核心本質。現在世面上，很多的大資料公司，不是說他們的技術不好，不優秀。而是他們對業務的理解沒有行業內的人熟悉。這就導致了技術分析達標，但業務仍沒有較大增長的根本原因。

本章最大的收穫就是認識到業務的重要，大資料分析只是輔助。其中，經濟學與心理學是對你理解相關業務會有很大的幫助。

論“術”

術”的這一部分，一共有四章，分的也很細。講的很透徹，看完這些內容。進而對生活中的一些例子開始有了思考，例如：淘寶廣告推薦，Uber,滴滴的基於最短路徑推薦，等等。以前覺得演算法這個神祕的東西離我們很遠，但現在看來，就在於我們的生活中，只不是統計人的思考維度是跟我們一般人是不一樣的。但同時，以“道”御“術”，只有明確什麼是優秀的資料分析，才能使我們這一部分的武器發揮出效力。

第二章上來就是要我們學會獨立思考，去思考為什麼？本書在這裡就提到：“是什麼”的形式並不重要，關鍵點是我們做這些事情所持的“本心”！這裡提到了直方圖，標準差，相關係數，準確率，召回率，這些曾經難懂的知識點，而本書的好處都是從我們身邊的故事講起的。這樣就更有利於我們對於這些指標的理解。透過這些基本概念的分析，我們要養成一種思維方式。

然後又講到了統計圖形，為什麼要用圖形化來展現我們的資料，因為一圖勝千言！

人腦對影象資訊的捕捉能力和記憶能力比文字強很多，畢竟文字這種“表意符號”比較抽象，屬於後天習得的知識關聯，而處理影象資訊則是人類與生俱來的能力。

而這一部分的目標原則與極簡原則又是對視覺化有了一個好的提醒，這樣也是我們日後避免只追求炫而忽略有圖表的本質問題。雖然圖表是為了輔助表達觀點而存在的，但也不能為了表達觀點而故意扭曲圖形。

決策製圖要分三個步驟：拆解內容維度、確定圖形型別、選擇表達方式！

第三章開篇就提出了一個比較讓人深思的問題：我們能相信統計嗎？實際上，延伸一點，就到我們的生活中，我們只不過是真實世界的一個抽樣，所以不要輕易批判他人的世界觀！在這一章節裡，它裡邊提到一個大數定理：真正的上帝沒有這麼刻薄，他在抽樣統計值和真實值之間設定了一種函式關係，該函式關係使得統計學習在一定程度上是可行的。這也就是所有程式設計函式的基礎：都是一種基於概率的信任！但在前期沒有任何資料積累時，會請相關領域專有根據經驗知識制定一套規則系統，而不是去挖掘少的可憐的樣本資料。

樣本量越大，抽樣統計值就越接近事物的真實程度。其中感觸最深的是裡邊人才市場與價格曲線的關係。你可以不成功，但你不能不成長，也許有人會阻礙你成功，但沒人會阻擋你成長。

上帝不擲骰子，因果律依然存在，不確定性只是因為人類的無知。

當影響一個事物結果的各種因素隨機發生，根據中心極限定理，它們的總和平均表現就是正態分佈。

如果說傳統統計學更多研究如何從抽樣個體的統計指標去推測全體，那麼今天的統計學則更多關注如何把全體資料在置信的前提下儘量拆細，得到更細緻的個體結論。

對於本章提出的問題：我們能相信統計嗎？在本章的最後給出了答案：對於統計結論，我們要基於概率的信任，中有當置信概率足夠大的時候，才可以相信統計結論。

本章提出了一個“思考為什麼？”的五步方法論：

1，以簡為始，不斷優化

2，理想藍圖，逐漸逼近

3，觀察典型，啟發思路

4，分清主次，化繁為簡

5，需求出發，貼近應用

第四章是在2，3章的基礎上的靈活運用，如何拆相關指標，並應用於生活中。這一章尤為重要！上來就講到一個優秀的統計學家不等於一個出色的資料分析師。而要真正做好資料分析，只能是既懂統計技術又熟悉業務、掌握分析方法、又有豐富分析經驗的人。

ARPU：客戶平均消費水平

資料分析更深一層的意義就是：反映一個人對所從事工作的認知和思考能力！

樣本與總體的關係：用個案啟發思路，用統計得到結論。

在可樂與比薩的數量曲線裡，隱含了一個非常隱晦的經濟價值：針對不同的的消費群體，以同樣的成本提供不同價值配比的產品，可以實現更多的使用者體驗價值。

商家的固定思考：只有價格敏感的人才忍到每年的限定時間囤貨，不在意花銷的富人是不做壽這樣麻煩事的。

在慣於炒概念的世界中，保持一份清醒的認識。畢竟，內在本質比外在概念要少得多。

資深資料分析人員的核心能力在於豐富的知識面帶來的思考角度和分析方法。

第五章個人認為是比較落地的一章內容。主要講到OLAP跟機器學習，這裡講到OLAP跟OLTP的差別，OLTP更多的是讀取資料後的儲存，而OLAP更多的偏重於分析，OLAP的主要應用是彙總分析較高層的統計資料，而不是直接處理龐大的原始日誌。

在資料探索階段使用無監督學習的場景較多，而在資料建模階段使用監督學習的場景較多。

無監督演算法並不真的不需要人的指導和監督，只是監督不以“提供樣例樣本”的形式出現。

一流的資料建模解決方案通常是策略演算法人員與工程架構人員通力配合的結果。深入的程式設計技術和架構設計能力已經極大的影響了機器學習的建模效果，所以在一流的機器學習團隊，策略模型和工程架構兩種人員有合併的趨勢。

演算法工程師的核心競爭力：深入理解業務、產品和資料，尋找模型和他們的結合點，的確是演算法工程師的核心競爭力。

關於機器學習：

在工業界做機器學習的應用，不僅要掌握模型演算法，還要看清企業面臨的市場機遇，將演算法模型放在業務戰略的角度進行評估。

機器學習變成一個業務和技術並重的交叉學科，真正做好它還需要更多的實踐。

機器學習模型背後的原理是知識表示+統計學習，而不是像人一樣真的在理解和思考。

論“釋”

這一部分，更多的是從業務角度，或是從當下社會經濟角度來說大資料的。

第六章內容，主要講大資料時代，經濟引導一切的條件下，要明白大資料的經濟價值。在這個經濟社會，如果大資料有經濟價值，相信各種配套技術會層出不窮的湧現。一切不談具體應用的大資料技術都是耍流氓！

醫療：大資料的價值類似於收集到足夠多的病例，對於每一個病人，均可以找到數量眾多的相似病例，那麼對病人的病情分析和治療方案會準確、有效得多。

網際網路：沒有無價值的流量，只有錯誤的匹配！

教育：針對學生制定個性化的學習計劃，需要資料建模。首先，構造個性化學習路徑的優化目標“學習收益/學習成本”。其次，基於使用者的特徵和歷史學習記錄形成訓練樣本，每個樣本標註了學生的背景資訊。

差異化定位與品牌：品牌對業務的幫助是潛移默化的，是企業重要的隱性資產。

新進入一個市場，最好的方法不是與明確的競爭者拼搏相同的產品，而是選擇差異化的產品定位，或者乾脆尋找顛覆這個市場的機會。

你雖然很強大，但我要估的和你不一橛，你的強大就與我無關。

政府提出“大眾創業，萬眾創新”後，真正能大眾創業的行業只有網際網路一個！

流量優勢是一個偽優勢，因為流量可以用資金買到！

產品保證存活，沒有需求就沒有市場；技術提供壁壘，沒有核心技術的產品大都難以長久！

大資料技術是一套資料+業務+需求的完整解決方案。思考關鍵不在於資料技術本身，而在於能否收集到足夠多、有價值的資料，以及找到適合資料技術的業務應用，即從鏈條的兩端向中間思考。

第七章

知識和工具方面的技能可以學習，但清晰的思維邏輯（頭腦清晰）和豐富的創意（點子多）是不可或缺的先決條件。

只有懂得欣賞他人，才會真心的尊重合作方，達到合作共贏的狀態。

從心理學的角度講，一個人內心對自己和認知是自我評價與他們評價之和。

讀書筆記摘錄：
2014-10-16
筆記
試讀圖書——《大資料挑戰與nosql資料庫技術》
2013-07-08
大資料SQL資料庫
關於大資料技術的一點思考
2020-10-16
大資料
oracle資料塊中資料儲存（摘錄）
2011-03-03
Oracle
SQL Story摘錄（八）————資料抽取 (轉)
2007-12-12
SQL
大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)
2018-06-01
大資料ORMSparkHadoop
多讀書，多思考
2016-04-12
DBA常用資料庫管理SQL (摘錄整理)
2005-01-19
資料庫SQL
《資料探勘概念與技術》讀書筆記
2017-03-12
筆記
“大資料”與“小資料”——寫在新書釋出時
2015-05-08
大資料新書
漫談對大資料的思考
2022-12-05
大資料
外語學習的書摘與思.5 - 高階：道於日常
2017-10-23
《網際網路創業啟示錄》書摘
2011-09-27
創業
大資料，小資料，哪道才是你的菜
2015-08-14
大資料
彪悍晨讀-清醒思考的藝術
2017-06-02
《黑客英雄》書摘
2010-12-07
黑客
亞馬遜如何利用大資料練就“讀心術”？
2016-03-30
亞馬遜大資料
【摘錄】index（一）
2010-01-31
Index
雲端計算平臺上的大資料技術解讀！
2018-11-30
大資料
大資料方面核心技術有哪些？新人必讀
2019-05-01
大資料
大資料時代：守好資料安全這道門
2017-07-04
大資料
大資料解讀
2014-07-02
大資料
效率讀書：《必然》——獨到的思考出發點
2016-04-01
大牛書單 | 迎金秋，與騰訊技術大咖共讀好書
2020-09-27
《數學之美》讀書筆記&思考
2019-02-28
筆記
資料產品的前端技術選型的思考
2018-11-26
前端
《大資料日知錄：架構與演算法》試讀
2014-10-26
大資料架構演算法
progit摘錄筆記
2018-11-27
Git筆記
<摘錄>GCC 中文手
2014-04-10
GC
物件導向（摘錄）
2008-09-25
物件
SAP　BI工作摘錄
2012-07-20
知：孫子兵法摘錄
2024-10-25
《大資料：技術與應用實踐指南》圖書資訊
2013-11-27
大資料
《網際網路信貸風險與大資料》讀書筆記（二）
2017-07-12
大資料筆記
《網際網路信貸風險與大資料》讀書筆記（一）
2017-05-26
大資料筆記
《網際網路信貸風險與大資料》讀書筆記（五）
2017-08-03
大資料筆記
《網際網路信貸風險與大資料》讀書筆記（六）
2017-08-06
大資料筆記
《網際網路信貸風險與大資料》讀書筆記（三）
2017-07-23
大資料筆記

《大資料的“道”“術”“釋”》----讀書摘錄+思考

相關文章