這兩天真的是被《啥是佩奇》這支廣告片刷屏了。佩奇明明是個喜劇角色，卻把所有人都給看哭了！

中間的劇情，小孫子一句：“想要佩奇”，結果爺爺就開始了滿村子的尋找佩奇，到最後尋找到了小編認為是最好看的佩奇

阿里大資料架構師必備技能，你“佩奇”了嘛？

不知道大家看了之後是什麼感覺，反正我看了之後的感覺是非常感動了。不過經過幾天的發酵，“佩奇”這兩個字似乎有了更多的含義了！各種”佩奇“齊出不窮，女人的“佩奇”是什麼樣的？程式設計師的“佩奇”是什麼樣的？

在這裡還是要推薦下我自己建的大資料學習交流群:529867072，群裡都是學大資料開發的，如果你正在學習大資料，小編歡迎你加入,大家都是軟體開發黨，不定期分享乾貨（只有大資料軟體開發相關的），包括我自己整理的一份最新的大資料進階資料和高階開發教程，歡迎進階中和進想深入大資料的小夥伴加入。

今天在這裡我就給大家分享一下，大資料工程師的“佩奇”是什麼樣的！

”佩奇“技能

1.程式設計能力

無論是Java還是Python，學習程式語言一定要先沉下心來專攻某一門，尤其是開放原始碼工具，在任何公司都廣泛運用。

比如對Java語言基礎語法、OOP程式設計、多執行緒及網路程式設計、MySQL資料庫、Maven專案管理等開發入門工具的學習，可以訓練自己掌握大資料必備的基本編碼能力，也為後續學大資料分析或是推薦系統等高階的內容打下堅實基礎。

2.Hadoop

Hadoop在大資料技術體系中的地位至關重要，Hadoop是大資料技術的基礎，對Hadoop基礎知識的掌握的紮實程度，會決定在大資料技術道路上走多遠。Hadoop裡面包括幾個元件HDFS、MapReduce和YARN，HDFS是儲存資料的地方就像我們電腦的硬碟一樣檔案都儲存在這個上面，MapReduce是對資料進行處理計算的，它有個特點就是不管多大的資料只要給它時間它就能把資料跑完，但是時間可能不是很快所以它叫資料的批處理。

YARN是體現Hadoop平臺概念的重要元件有了它大資料生態體系的其它軟體就能在hadoop上執行了，這樣就能更好的利用HDFS大儲存的優勢和節省更多的資源比如我們就不用再單獨建一個spark的叢集了，讓它直接跑在現有的hadoop yarn上面就可以了。下面是Hadoop的常用模組架構圖：

阿里大資料架構師必備技能，你“佩奇”了嘛？

3.Spark

它是用來彌補基於MapReduce處理資料速度上的缺點，它的特點是把資料裝載到記憶體中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算，所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它，因為它們都是用JVM的。

4.Storm

Storm是一個免費並開源的分散式實時計算系統。利用Storm可以很容易做到可靠地處理無限的資料流，像Hadoop批次處理大資料一樣，Storm可以實時處理資料。Storm簡單，可以使用任何程式語言。

5.Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了類似於JMS的特性，但是在設計實現上完全不同，此外它並不是JMS規範的實現。kafka對訊息儲存時根據Topic進行歸類，傳送訊息者成為Producer,訊息接受者成為Consumer,此外kafka叢集有多個kafka例項組成，每個例項(server)成為broker。無論是kafka叢集，還是producer和consumer都依賴於zookeeper來保證系統可用性叢集儲存一些meta資訊。

6.Flink

Flink是一款分散式的計算引擎，它可以用來做批處理，即處理靜態的資料集、歷史的資料集;也可以用來做流處理，即實時地處理一些實時資料流，實時地產生資料的結果;也可以用來做一些基於事件的應用，比如說滴滴透過Flink CEP實現實時監測使用者及司機的行為流來判斷使用者或司機的行為是否正當。大資料學習交流群：529867072

7.Hive

Hive 由 Facebook 實現並開源

是基於 Hadoop 的一個資料倉儲工具

可以將結構化的資料對映為一張資料庫表

並提供 HQL(Hive SQL)查詢功能

底層資料是儲存在 HDFS 上

Hive的本質是將 SQL 語句轉換為 MapReduce 任務執行

使不熟悉 MapReduce 的使用者很方便地利用 HQL 處理和計算 HDFS 上的結構化的資料，適用於離線的批次資料計算。

8.ElacsticSearch

ES是一個基於Lucene的分散式全文搜尋伺服器，和SQL Server的全文索引（Fulltext Index）有點類似，都是基於分詞和分段的全文搜尋引擎，具有分詞，同義詞，詞幹查詢的功能，但是ES天生具有分散式和實時的屬性，本隨筆演示在Windows環境中安裝ElasticSearch，以及用於管理ElasticSearch的Head外掛。

總結

在技術行業裡面，每天都會有新的東西出現，需要關注最新技術動態，不斷學習。任何一般技術都是先學習理論，然後在實踐中不斷完善理論的過程。

如果你覺得自己看書效率太慢，你可以網上搜集一些課程。

快速學習的能力、解決問題的能力、溝通能力在這個行業是真的非常重要的指標。

要善於使用StackOverFlow和Google來幫助你學習過程遇到的問題。

阿里大資料架構師必備技能，你“佩奇”了嘛？

相關文章