我們常常意識不到問題的存在，直到有人解決了這些問題

weixin_33858249發表於2019-02-25

原文網址 : https://blog.csdn.net/weixin_33858249/article/details/89957430

Hadoop MapReduce雖然已經可以滿足大資料的應用場景，但是其執行速度和程式設計複雜度並不讓人們滿意。於是UC Berkeley的AMP Lab推出的Spark應運而生，Spark擁有更快的執行速度和更友好的程式設計介面，在推出後短短兩年就迅速搶佔MapReduce的市場份額，成為主流的大資料計算框架。

讀到這裡請你先停一下，請給這段看似“沒毛病”的引子找找問題。

不知道你意識到沒有，我在這段開頭說的，“Hadoop MapReduce雖然已經可以滿足大資料的應用場景，但是其執行速度和程式設計複雜度並不讓人們滿意”，這句話其實是錯誤的。這樣說好像可以讓你更加清晰地看到事物發展的因果關係，同時也可以暗示別人自己有洞察事物發展規律的能力。然而，這種靠事後分析的因果規律常常是錯誤的，往往把結果當作了原因。

事實上，在Spark出現之前，我們並沒有對MapReduce的執行速度不滿，我們覺得大資料嘛、分散式計算嘛，這樣的速度也還可以啦。至於程式設計複雜度也是一樣，一方面Hive、Mahout這些工具將常用的MapReduce程式設計封裝起來了；另一方面，MapReduce已經將分散式程式設計極大地簡化了，當時人們並沒有太多不滿。

真實的情況是，人們在Spark出現之後，才開始對MapReduce不滿。原來大資料計算速度可以快這麼多，程式設計也可以更簡單。而且Spark支援Yarn和HDFS，公司遷移到Spark上的成本很小，於是很快，越來越多的公司用Spark代替MapReduce。也就是說，因為有了Spark，才對MapReduce不滿；而不是對MapReduce不滿，所以誕生了Spark。真實的因果關係是相反的。

這裡有一條關於問題的定律分享給你：我們常常意識不到問題的存在，直到有人解決了這些問題。

當你去詢問人們有什麼問題需要解決，有什麼需求需要被滿足的時候，他們往往自己也不知道自己想要什麼，常常言不由衷。但是如果你真正解決了他們的問題，他們就會恍然大悟：啊，這才是我真正想要的，以前那些統統都是“垃圾”，我早就想要這樣的東西（功能）了。

所以頂尖的產品大師（問題解決專家），並不會拿著個小本本四處去做需求調研，問人們想要什麼。而是在旁邊默默觀察人們是如何使用產品（解決問題）的，然後思考更好的產品體驗（解決問題的辦法）是什麼。最後當他拿出新的產品設計（解決方案）的時候，人們就會視他為知己：你最懂我的需求（我最懂你的設計）。

賈伯斯是這樣的大師，Spark的作者馬鐵也是這樣的專家。

說了那麼多，我們回到Spark。Spark和MapReduce相比，有更快的執行速度。下圖是Spark和MapReduce進行邏輯迴歸機器學習的效能比較，Spark比MapReduce快100多倍。
$\"\"$

除了速度更快，Spark和MapReduce相比，還有更簡單易用的程式設計模型。使用Scala語言在Spark上編寫WordCount程式，主要程式碼只需要三行。

val textFile = sc.textFile(\u0026quot;hdfs://...\u0026quot;)val counts = textFile.flatMap(line =\u0026gt; line.split(\u0026quot; \u0026quot;))                 .map(word =\u0026gt; (word, 1))                 .reduceByKey(_ + _)counts.saveAsTextFile(\u0026quot;hdfs://...\u0026quot;)

不熟悉Scala語言沒關係，我來解釋一下上面的程式碼。

第1行程式碼：根據HDFS路徑生成一個輸入資料RDD。

第2行程式碼：在輸入資料RDD上執行3個操作，得到一個新的RDD。

將輸入資料的每一行文字用空格拆分成單詞。
將每個單詞進行轉換，word =\u0026gt; (word, 1)，生成\u0026lt;Key, Value\u0026gt;的結構。
相同的Key進行統計，統計方式是對Value求和，(_ + _)。

第3行程式碼：將這個RDD儲存到HDFS。

RDD是Spark的核心概念，是彈性資料集（Resilient Distributed Datasets）的縮寫。RDD既是Spark面向開發者的程式設計模型，又是Spark自身架構的核心元素。

我們先來看看作為Spark程式設計模型的RDD。我們知道，大資料計算就是在大規模的資料集上進行一系列的資料計算處理。MapReduce針對輸入資料，將計算過程分為兩個階段，一個Map階段，一個Reduce階段，可以理解成是程式導向的大資料計算。我們在用MapReduce程式設計的時候，思考的是，如何將計算邏輯用Map和Reduce兩個階段實現，map和reduce函式的輸入和輸出是什麼，這也是我們在學習MapReduce程式設計的時候一再強調的。

而Spark則直接針對資料進行程式設計，將大規模資料集合抽象成一個RDD物件，然後在這個RDD上進行各種計算處理，得到一個新的RDD，繼續計算處理，直到得到最後的結果資料。所以Spark可以理解成是物件導向的大資料計算。我們在進行Spark程式設計的時候，思考的是一個RDD物件需要經過什麼樣的操作，轉換成另一個RDD物件，思考的重心和落腳點都在RDD上。

所以在上面WordCount的程式碼示例裡，第2行程式碼實際上進行了3次RDD轉換，每次轉換都得到一個新的RDD，因為新的RDD可以繼續呼叫RDD的轉換函式，所以連續寫成一行程式碼。事實上，可以分成3行。

val rdd1 = textFile.flatMap(line =\u0026gt; line.split(\u0026quot; \u0026quot;))val rdd2 = rdd1.map(word =\u0026gt; (word, 1))val rdd3 = rdd2.reduceByKey(_ + _)

RDD上定義的函式分兩種，一種是轉換（transformation）函式，這種函式的返回值還是RDD；另一種是執行（action）函式，這種函式不再返回RDD。

RDD定義了很多轉換操作函式，比如有計算map(func)、過濾filter(func)、合併資料集union(otherDataset)、根據Key聚合reduceByKey(func, [numPartitions])、連線資料集join(otherDataset, [numPartitions])、分組groupByKey([numPartitions])等十幾個函式。

我們再來看看作為Spark架構核心元素的RDD。跟MapReduce一樣，Spark也是對大資料進行分片計算，Spark分散式計算的資料分片、任務排程都是以RDD為單位展開的，每個RDD分片都會分配到一個執行程式去處理。

RDD上的轉換操作又分成兩種，一種轉換操作產生的RDD不會出現新的分片，比如map、filter等，也就是說一個RDD資料分片，經過map或者filter轉換操作後，結果還在當前分片。就像你用map函式對每個資料加1，得到的還是這樣一組資料，只是值不同。實際上，Spark並不是按照程式碼寫的操作順序去生成RDD，比如“rdd2 = rdd1.map(func)”這樣的程式碼並不會在物理上生成一個新的RDD。物理上，Spark只有在產生新的RDD分片時候，才會真的生成一個RDD，Spark的這種特性也被稱作惰性計算。

另一種轉換操作產生的RDD則會產生新的分片，比如reduceByKey，來自不同分片的相同Key必須聚合在一起進行操作，這樣就會產生新的RDD分片。實際執行過程中，是否會產生新的RDD分片，並不是根據轉換函式名就能判斷出來的，具體我們下一期再討論。

總之，你需要記住，Spark應用程式程式碼中的RDD和Spark執行過程中生成的物理RDD不是一一對應的，RDD在Spark裡面是一個非常靈活的概念，同時又非常重要，需要認真理解。

當然Spark也有自己的生態體系，以Spark為基礎，有支援SQL語句的Spark SQL，有支援流計算的Spark Streaming，有支援機器學習的MLlib，還有支援圖計算的GraphX。利用這些產品，Spark技術棧支撐起大資料分析、大資料機器學習等各種大資料應用場景。
$\"\"$

我前面提到，頂尖的產品設計大師和問題解決專家，不會去詢問人們想要什麼，而是分析和觀察人們的做事方式，從而思考到更好的產品設計和問題解決方案。

但是這種技巧需要深邃的觀察力和洞察力，如果沒有深度的思考，做出的東西就會淪為異想天開和自以為是。要知道大眾提出的需求雖然也無法觸及問題的核心，但是好歹是有共識的，大家都能接受，按這種需求做出的東西雖然平庸，但是不至於令人厭惡。

而缺乏洞見的自以為是則會違反常識，讓其他人本能產生排斥感，進而產生對立情緒。這種情緒之下，設計沒有了進一步改進的基礎，最後往往成為悲劇。這兩年在所謂網際網路思維的鼓吹下，一些缺乏專業技能的人，天馬行空創造需求，受到質疑後公開批評使用者，也是讓人倍感驚詫。

我們在自己的工作中，作為一個不是頂尖大師的產品經理或工程師，如何做到既不自以為是，又能逐漸擺脫平庸，進而慢慢向大師的方向靠近呢？

有個技巧可以在工作中慢慢練習：不要直接提出你的問題和方案，不要直接說“你的需求是什麼？”“我這裡有個方案你看一下”。

直向曲中求，對於複雜的問題，越是直截了當越是得不到答案。迂迴曲折地提出問題，一起思考問題背後的規律，才能逐漸發現問題的本質。通過這種方式，既能達成共識，不會有違常識，又可能產生洞見，使產品和方案呈現閃光點。

你覺得前一個版本最有意思（最有價值）的功能是什麼？
你覺得我們這個版本應該優先關注哪個方面？
你覺得為什麼有些使用者在下單以後沒有支付？

作者介紹

李智慧，極客時間《從0開始學大資料》專欄講師，同程藝龍交通首席架構師、Apache Spark原始碼貢獻者，長期從事大資料、大型網站架構的研發工作，曾擔任阿里巴巴技術專家、Intel亞太研發中心架構師、宅米和WiFi萬能鑰匙CTO，有超過6年的線下諮詢、培訓經驗，著有暢銷書《大型網站技術架構：核心原理與案例分析》。

Go 模組存在的意義與解決的問題
2019-10-14
Go
跨鏈橋的存在解決了什麼問題？
2021-11-04
拜託！別再問我多執行緒的這些問題了
2020-09-02
執行緒
Mybatis入門 Mybatis存在的意義解決的問題基本操作
2020-10-31
MyBatis
Service Mesh是什麼，為我們解決了什麼問題？
2021-07-30
面試了8家公司，他們問了我這些機器學習題目......
2018-04-23
面試機器學習
解決godoc命令不存在的問題
2021-01-22
Go
【API知識】ElementUI一些問題的解決方案
2018-12-22
APIUI
律所管理系統能解決律師事務所存在的這些問題
2021-10-11
Python的Selenium一些問題解決
2022-01-25
Python
Nacos 幫我們解決什麼問題？（配置管理篇）
2018-10-25
Webpack的理解以及解決了的問題
2021-04-26
Web
不要再問我跨域的問題了，這篇文章全搞定！
2018-09-30
跨域
不要再問我跨域的問題了
2018-07-16
跨域
單例模式中可能存在的一些問題（執行緒安全問題）
2018-05-09
單例模式執行緒
在K8S中，我們所有人都知道從單服務到微服務的轉變從開發方面解決了問題，但在部署方面卻增加了問題，公司該如何解決部署方面問題?
2024-10-30
K8S微服務
企業實施PDM能解決這些問題
2019-05-15
我們希望智慧物聯中臺UCC解決什麼問題
2024-11-12
終於解決了這個線上偶現的panic問題
2022-01-10
成立公司了，遇到了這樣一些問題！
2022-05-25
解決Reiserfs檔案系統損壞的問題我們是認真的
2019-12-18
Promise到底解決了什麼問題？
2019-03-02
Promise
離職，問題就解決了嗎？
2022-06-20
JSR - 133 都解決了哪些問題？
2021-07-13
JS
WebAssembly解決了哪些業務問題？
2022-06-17
Web
解決 Unexpectedlexicaldeclarationincaseblock的問題
2024-11-04
BloC
win10系統鎖屏介面出現“我們這邊出現了問題，請再嘗試” 的解決方法
2019-07-10
Win10
go path 存在的問題
2024-10-08
Go
快取過程存在的三大問題及解決方案
2019-08-27
快取
提問題比解決問題更重要
2018-10-08
SpringBoot 2.0中SpringWebContext 找不到無法使用的問題解決
2019-02-22
Spring BootWebContext
解決 github 訪問不了的問題
2020-10-25
Github
解決github訪問慢的問題
2021-08-02
Github
我們向GPT-3問了15908個問題，終於發現了它的真面目
2020-09-18
GPT
設計模式這話題，我面試又被問了
2021-11-30
設計模式面試
ES6解決了什麼問題
2018-04-10
混合雲管理問題，你解決了麼？
2019-03-04
太厲害了！解決了我對編譯的絕大部分問題！
2020-10-19
編譯

我們常常意識不到問題的存在，直到有人解決了這些問題

相關文章