2016年大資料80篇爆款文章:這一年你追過的那些技術

hackeruncle發表於2016-12-30

2016年即將過去,各位大資料的程式設計師們,是否覺得這一年都不斷的追著新技術跑?這個大資料公眾號是今年一月底創立的,一年過去,我們積累了不少好內容。回過頭來我們看看這一年的腳印,這裡我按照文章內容做了一次彙總,分為:流處理、機器學習、使用者畫像、資料驅動、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統和大資料平臺架構。

流處理

2016年流式資料處理已逐漸開始成為主流,對於流資料的處理存在很多技術,即使在開源社群中,也存在很多撲朔迷離的選擇。在大資料雜談裡我們包含了一些優秀的流處理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。

Apache Flink是今年新軍突起的流處理技術,完全相容Hadoop。Apache Flink與Apache Spark的主要差別在於計算模型不同。Spark採用了微批處理模型,而Flink採用了基於運算子的連續流模型。

大資料分析引擎Apache Flink: What, How, Why, Who, Where?

以Flink為例,消除流處理常見的六大謬見

LinkedIn在2010年開發了Kafka,是Kafka的重度使用者,他們總結的經驗是非常有參考意義的。而“微服務架構:kafka的崛起”這篇文章詳盡的探討了在微服務架構升級的過程中,如何使用Kafka將微服務之間耦合降到最低,同時能讓整個系統在保證高可用的前提下做到高可擴充套件。

同時Samza也是LinkedIn研發的一款流處理器,下面的文章介紹了Samza在LinkedIn公司的應用情況,Samza在流處理方面的優勢、新特性以及下一步的規劃。

剖析Linkedln遭遇的Kafka“危機故障” 

微服務架構界的“網紅”來了——崛起的Kafka

LinkedIn開源流處理器Samza的應用場景、優勢、新特性與未來規劃

下面這篇文章,集中比較了主流的流處理器的優缺點。

實時流處理框架Storm、Spark Streaming、Samza、Flink,孰優孰劣?!

下面是一些企業自研流處理架構的情況。JMQ是京東自研的訊息中介軟體,InfoQ前後發過兩篇文章來解析他們的中介軟體情況;另外我們也給出了一系列文章來說明Yelp的資料管道,並且Yelp的資料管道剛剛宣佈了開源,大家可在Github上下載閱讀原始碼。

京東訊息中介軟體JMQ:架構,與Kafka的對比,主要特性和應用場景

Facebook的實時流處理技術 

Yelp的資料管道開源了:ETL已死,實時流技術永生?

Kafka和Twitter新開源的DistributedLog技術對比

機器學習

機器學習經過近年來的強勢生長之後,很快地從一個很少被人關注的技術主題,轉變為被很多人使用的管理工具。其有效性被無數企業成功驗證和應用,為了避免錯失良機,企業需要設計自己的機器學習專案,比如在電商平臺的推薦、排序業務中。在業務的多樣性大的時候企業就需要考慮將機器學習系統平臺化。對於學術界來說,學者們更希望機器學習平臺容易除錯、靈活性要強、迭代要快;而對於工業界更看重的是平臺的穩定性強、處理大資料量、容易進行資料整合、高效率、低開發成本等。

我們在大資料雜談上實際上已經積累了不少企業機器學習平臺構建的內容,包括:騰訊的Angel,優點是效率快於Spark幾十倍,支援維度達到十億;另外是阿里巴巴的引數伺服器,講述了涉及理念以及在阿里的實際應用;還有第四正規化的先知平臺,從系統和工程方面的最佳化方向,在開發平臺產品時的一些經驗;還有就是TalkingData的Fregata,優點第一是速度快,第二是演算法無需調參或者調參相對簡單。

騰訊大資料宣佈開源第三代高效能運算平臺Angel:支援十億維度

大規模大資料的有效利用,阿里巴巴引數伺服器設計理念與實踐

為什麼已有TensorFlow和Spark,第四正規化還要開發“先知”平臺?

]輕量級大規模機器學習演算法庫Fregata開源:快速,無需調參

下面兩篇文章講的是怎麼將深度學習平臺應用到企業生產環境中,這也是大名鼎鼎的兩個平臺:Tensorflow和Deeplearning4j。

如何透過TensorFlow實現深度學習演算法並運用到企業實踐中

深度學習在Spark平臺上如何進入生產環境

下面是各公司針對企業的業務利用機器學習來提高產品體驗的一些經驗。依次是Twitter,1號店,攜程,搜狗,達觀資料。最後是一篇總結深度學習全球進展和預測2017的文章。

Twitter機器學習平臺的設計與搭建 

1號店11.11:機器排序學習在電商搜尋中的實戰

想要愉快入住酒店?缺了它還真不行! 

深度學習在搜狗無線搜尋廣告中的應用

海量資料探勘最優解?機器學習!

深度學習:2016年的進展綜述及2017年的預測

使用者畫像

“對企業而言,得使用者者得天下,能夠有一套科學的精準營銷、個性化推薦模型,無疑會促進業務的增長;對開發者而言,使用者畫像也是頻繁被提及的技術,這樣可以根據目標使用者的動機和行為上進行產品設計,遠遠優於為腦中虛構的東西做設計。”

這裡有來自去哪兒、TalkingData、FreeWheel、百分點、天雲大資料的5篇優質內容教你如何設計精準的使用者畫像產品。

Qunar使用者畫像構建策略及應用實踐

40億移動裝置的使用者畫像和標籤架構實踐

廣告平臺中使用者畫像和標註噪聲處理的實踐

百分點蘇海波博士:為什麼你做的使用者畫像模型不精準?

使用者畫像不應脫離社會關係,談複雜網路的關鍵技術和應用實踐

資料驅動

講大資料離不開資料驅動。資料驅動相關案例分別來自鏈家網、諸葛io、LinkedIn和滴滴。

資料驅動在鏈家網搜尋最佳化與推薦策略中的實踐

基於Spark的使用者行為路徑分析的產品化實踐

4億使用者的LinkedIn資料產品設計原則和架構實現

資料驅動管理竟成滴滴獲10億美元投資的最大黑手?

Hadoop

今年1月,Hadoop過上了10歲生日,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,Cloudera的陳飈老師的文章在這一年中流傳甚廣,非常值得一看。另外InfoQ將這十篇文章集中到一起,做成了《架構師特刊:Hadoop十年回顧》的電子書分享給了大家,有興趣可以下載下來讀一讀,將對Hadoop生態形成非常好的理解。在這裡再次對十位作者老師表示謝意,謝謝大家的無私分享!

深度 | 資深架構師教你一篇文看懂Hadoop

《架構師特刊:Hadoop十年回顧》迷你書免費下載

Apache Spark

在2016年,Spark迎來了最近兩年的一個最大的版本的釋出:Spark 2.0。但是在Spark上我做的工作並不夠,原本很想做個很好的專題,但是屢屢碰壁之後只能罷了,畢竟對於Spark開發者來說,這麼大熱的一年,任何實踐都足夠上沙龍和大會。

關鍵七步,用Apache Spark構建實時分析Dashboard

Spark在GrowingIO資料無埋點全量採集場景下的實踐

是時候瞭解一些Spark生態系統中的圖資料分析知識了

以Python為例,教你Spark 應用開發

Apache Kylin

eBay的大資料OLAP框架Kylin專案一經開源,即獲得了業界眾多的稱讚,並被邀請加入Apache軟體基金會的孵化專案,在2014年11月,正式經投票加入了Apache大家庭,專案名字也改成了“Apache Kylin”。

InfoQ在Kylin開源的一開始就持續關注這個專案,分享了很多的案例,促進了Kylin社群的進一步發展。這些內容我們也集中到了電子書中:《架構師特刊:Apache Kylin實踐》。

Apache Kylin釋出新版流處理引擎 

使用超大規模資料分析技術支援大資料預測

Apache Kylin在電信運營商的實踐和案例分享

Apache Kylin在美團數十億資料OLAP場景下的實踐

漲姿勢:百度地圖的工程師都是如何利用Apache Kylin處理資料的

Apache Kylin企業實踐,電子書免費下載!

Druid

Druid作為一個大資料的OLAP系統,在這一年裡收穫了很多的關注。國內也有了Druid中文社群,組織了好幾次Druid Meetup。

PB級資料快速聚合查詢,Druid和Caravel在去哪兒大住宿的實踐

驅動海量大資料實時多維分析,優酷為什麼會選擇Druid?

推薦系統

推薦系統部分有百分點、京東、達觀資料的企業實踐,也有解說播客和部落格的推薦系統原理和實踐的文章。還有一篇最新的推薦系統進展,Youtube的大規模推薦系統。

最後也同樣奉上兩本電子書:《推薦系統:理論篇》和《推薦系統:實踐篇》。

百分點億級個性化推薦系統的發展歷程和實踐架構

京東618智慧賣場:個性化技術在大促會場上的實踐

推薦系統實踐與最佳化 

如何基於使用者歷史行為進行精準個性化推薦

三週時間,搭建一個產品級的播客podcast推薦系統實踐解析

部落格推薦系統:防過載又創價值 

用一個大家都懂的方式來聊聊YouTube基於深度神經網路的推薦系統

想抓住使用者的心思?《推薦系統(理論篇)》免費電子書下載!

架構師必讀:《推薦系統(實踐)》免費電子書下載!

大資料平臺與資料探勘實踐

資料平臺部分積攢的內容也非常多:攜程、去哪兒、百分點、諸葛io、騰訊、挖財、有贊、鏈家網、美團、卷皮、達觀資料和明略資料。

攜程大資料實時風控的架構及實踐

去哪兒網支付系統架構演進

如何針對技術和業務人員痛點,搭建標準智慧資料平臺?

大資料平臺變革浪潮中,這家初創公司積累的值得借鑑的業務架構實踐經驗

騰訊億級排行榜系統實踐及挑戰

挖財基於大資料的信貸審批系統實踐 

用Elasticsearch構建電商搜尋平臺,一個極有代表性的基礎技術架構和演算法實踐案例

房源推薦、房屋估價、經紀人畫像…,鏈家如何利用資料探勘技術服務房地產?

攜程基於Storm的實時大資料平臺實踐

美團大資料平臺架構實踐 [ 文章 + 影片 ] 

從搭臺到唱戲,電商卷皮BI的實踐演進和架構體系

從Storm到Heron,Twitter的實時計算框架有哪些重大進化?

如何建立完整可用的安全大資料平臺

達觀資料分析平臺架構和Hive實踐

一線專家談談:資料探勘在實際領域中的那些事兒

這5種必知的大資料處理框架技術,你的專案到底應該使用其中的哪幾種

資料庫

大資料少不了資料儲存,推薦大家再看看第一篇黃東旭老師的開源資料庫現狀。

一篇文章,掌握所有開源資料庫的現狀

如何在不增加投入的情況下讓你的資料庫快上200倍

GPU高速查詢統計和典型場景:從“小時”到“毫秒”級的進化

一文掌握雲資料庫現狀與前沿技術

怎樣打造一個分散式資料庫 | 資料庫功能深度解析

MongoDB在58同城百億量級資料下的應用實踐

10億級流資料互動查詢,為什麼拋棄MySQL選擇VoltDB?

優酷土豆的Redis服務平臺化之路 

分散式MySQL叢集方案,看看京東是怎麼做的

知識圖譜

LinkedIn知識圖譜的構建與實踐

企業級大資料知識圖譜產品構建與應用 

 

如果覺得本部落格對您有幫助,請 贊助作者 

轉載請註明: ? 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2131656/,如需轉載,請註明出處,否則將追究法律責任。

相關文章