2016年大資料80篇爆款文章:這一年你追過的那些技術
2016年即將過去,各位大資料的程式設計師們,是否覺得這一年都不斷的追著新技術跑?這個大資料公眾號是今年一月底創立的,一年過去,我們積累了不少好內容。回過頭來我們看看這一年的腳印,這裡我按照文章內容做了一次彙總,分為:流處理、機器學習、使用者畫像、資料驅動、Hadoop、Apache Spark、Apache Kylin、Druid、推薦系統和大資料平臺架構。
流處理
2016年流式資料處理已逐漸開始成為主流,對於流資料的處理存在很多技術,即使在開源社群中,也存在很多撲朔迷離的選擇。在大資料雜談裡我們包含了一些優秀的流處理文章,包括Kafka流,Spark流,Storm,Flink,Samza等。
Apache Flink是今年新軍突起的流處理技術,完全相容Hadoop。Apache Flink與Apache Spark的主要差別在於計算模型不同。Spark採用了微批處理模型,而Flink採用了基於運算子的連續流模型。
大資料分析引擎Apache Flink: What, How, Why, Who, Where?
LinkedIn在2010年開發了Kafka,是Kafka的重度使用者,他們總結的經驗是非常有參考意義的。而“微服務架構:kafka的崛起”這篇文章詳盡的探討了在微服務架構升級的過程中,如何使用Kafka將微服務之間耦合降到最低,同時能讓整個系統在保證高可用的前提下做到高可擴充套件。
同時Samza也是LinkedIn研發的一款流處理器,下面的文章介紹了Samza在LinkedIn公司的應用情況,Samza在流處理方面的優勢、新特性以及下一步的規劃。
LinkedIn開源流處理器Samza的應用場景、優勢、新特性與未來規劃
下面這篇文章,集中比較了主流的流處理器的優缺點。
實時流處理框架Storm、Spark Streaming、Samza、Flink,孰優孰劣?!
下面是一些企業自研流處理架構的情況。JMQ是京東自研的訊息中介軟體,InfoQ前後發過兩篇文章來解析他們的中介軟體情況;另外我們也給出了一系列文章來說明Yelp的資料管道,並且Yelp的資料管道剛剛宣佈了開源,大家可在Github上下載閱讀原始碼。
京東訊息中介軟體JMQ:架構,與Kafka的對比,主要特性和應用場景
Kafka和Twitter新開源的DistributedLog技術對比
機器學習
機器學習經過近年來的強勢生長之後,很快地從一個很少被人關注的技術主題,轉變為被很多人使用的管理工具。其有效性被無數企業成功驗證和應用,為了避免錯失良機,企業需要設計自己的機器學習專案,比如在電商平臺的推薦、排序業務中。在業務的多樣性大的時候企業就需要考慮將機器學習系統平臺化。對於學術界來說,學者們更希望機器學習平臺容易除錯、靈活性要強、迭代要快;而對於工業界更看重的是平臺的穩定性強、處理大資料量、容易進行資料整合、高效率、低開發成本等。
我們在大資料雜談上實際上已經積累了不少企業機器學習平臺構建的內容,包括:騰訊的Angel,優點是效率快於Spark幾十倍,支援維度達到十億;另外是阿里巴巴的引數伺服器,講述了涉及理念以及在阿里的實際應用;還有第四正規化的先知平臺,從系統和工程方面的最佳化方向,在開發平臺產品時的一些經驗;還有就是TalkingData的Fregata,優點第一是速度快,第二是演算法無需調參或者調參相對簡單。
騰訊大資料宣佈開源第三代高效能運算平臺Angel:支援十億維度
為什麼已有TensorFlow和Spark,第四正規化還要開發“先知”平臺?
]輕量級大規模機器學習演算法庫Fregata開源:快速,無需調參
下面兩篇文章講的是怎麼將深度學習平臺應用到企業生產環境中,這也是大名鼎鼎的兩個平臺:Tensorflow和Deeplearning4j。
如何透過TensorFlow實現深度學習演算法並運用到企業實踐中
下面是各公司針對企業的業務利用機器學習來提高產品體驗的一些經驗。依次是Twitter,1號店,攜程,搜狗,達觀資料。最後是一篇總結深度學習全球進展和預測2017的文章。
使用者畫像
“對企業而言,得使用者者得天下,能夠有一套科學的精準營銷、個性化推薦模型,無疑會促進業務的增長;對開發者而言,使用者畫像也是頻繁被提及的技術,這樣可以根據目標使用者的動機和行為上進行產品設計,遠遠優於為腦中虛構的東西做設計。”
這裡有來自去哪兒、TalkingData、FreeWheel、百分點、天雲大資料的5篇優質內容教你如何設計精準的使用者畫像產品。
資料驅動
講大資料離不開資料驅動。資料驅動相關案例分別來自鏈家網、諸葛io、LinkedIn和滴滴。
Hadoop
今年1月,Hadoop過上了10歲生日,我也在年初策劃了Hadoop十年的專欄,共約了十篇稿件,Cloudera的陳飈老師的文章在這一年中流傳甚廣,非常值得一看。另外InfoQ將這十篇文章集中到一起,做成了《架構師特刊:Hadoop十年回顧》的電子書分享給了大家,有興趣可以下載下來讀一讀,將對Hadoop生態形成非常好的理解。在這裡再次對十位作者老師表示謝意,謝謝大家的無私分享!
Apache Spark
在2016年,Spark迎來了最近兩年的一個最大的版本的釋出:Spark 2.0。但是在Spark上我做的工作並不夠,原本很想做個很好的專題,但是屢屢碰壁之後只能罷了,畢竟對於Spark開發者來說,這麼大熱的一年,任何實踐都足夠上沙龍和大會。
關鍵七步,用Apache Spark構建實時分析Dashboard
Spark在GrowingIO資料無埋點全量採集場景下的實踐
Apache Kylin
eBay的大資料OLAP框架Kylin專案一經開源,即獲得了業界眾多的稱讚,並被邀請加入Apache軟體基金會的孵化專案,在2014年11月,正式經投票加入了Apache大家庭,專案名字也改成了“Apache Kylin”。
InfoQ在Kylin開源的一開始就持續關注這個專案,分享了很多的案例,促進了Kylin社群的進一步發展。這些內容我們也集中到了電子書中:《架構師特刊:Apache Kylin實踐》。
Apache Kylin在美團數十億資料OLAP場景下的實踐
漲姿勢:百度地圖的工程師都是如何利用Apache Kylin處理資料的
Druid
Druid作為一個大資料的OLAP系統,在這一年裡收穫了很多的關注。國內也有了Druid中文社群,組織了好幾次Druid Meetup。
PB級資料快速聚合查詢,Druid和Caravel在去哪兒大住宿的實踐
推薦系統
推薦系統部分有百分點、京東、達觀資料的企業實踐,也有解說播客和部落格的推薦系統原理和實踐的文章。還有一篇最新的推薦系統進展,Youtube的大規模推薦系統。
最後也同樣奉上兩本電子書:《推薦系統:理論篇》和《推薦系統:實踐篇》。
三週時間,搭建一個產品級的播客podcast推薦系統實踐解析
用一個大家都懂的方式來聊聊YouTube基於深度神經網路的推薦系統
大資料平臺與資料探勘實踐
資料平臺部分積攢的內容也非常多:攜程、去哪兒、百分點、諸葛io、騰訊、挖財、有贊、鏈家網、美團、卷皮、達觀資料和明略資料。
大資料平臺變革浪潮中,這家初創公司積累的值得借鑑的業務架構實踐經驗
用Elasticsearch構建電商搜尋平臺,一個極有代表性的基礎技術架構和演算法實踐案例
房源推薦、房屋估價、經紀人畫像…,鏈家如何利用資料探勘技術服務房地產?
從Storm到Heron,Twitter的實時計算框架有哪些重大進化?
這5種必知的大資料處理框架技術,你的專案到底應該使用其中的哪幾種
資料庫
大資料少不了資料儲存,推薦大家再看看第一篇黃東旭老師的開源資料庫現狀。
10億級流資料互動查詢,為什麼拋棄MySQL選擇VoltDB?
知識圖譜
如果覺得本部落格對您有幫助,請 贊助作者 。
轉載請註明: ?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2131656/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 那些年你踩過的坑,都在這裡了~| 掘金技術徵文
- 那些年 我追過的語言
- 我和技術部落格的這一年
- 一篇文章讓你知道什麼是大資料探勘技術大資料
- 2016 年大資料技術發展趨勢解讀大資料
- 那些年,我們一起追過的APPAPP
- 那些年你追過的女神:開發人員應該懂多少運維運維
- 那些年,學過的屠龍術
- 為什麼過去的一年多裡,Steam上的國產遊戲爆款變少了?遊戲
- 技術小白的也能獨立完成資料分析,這款BI系統你值得擁有
- 大資料的儲存時代,你需要這款價效比高的NAS!大資料
- 大資料這麼火,要不要追趕大資料AI的熱潮?大資料AI
- 5分鐘搞定!這款顏值爆表的資料視覺化工具,你值得擁有!視覺化
- 一篇文章詳解大資料技術和應用場景 大資料大資料
- 2016年大資料和工業物聯網技術趨勢展望大資料
- 那些年,我們一起追過的化學元素
- 寫文章一年了,我用到的工具都在這兒了!
- 那些年的體驗技術部
- 我面試過的那些爛技術大哥面試
- 雲原生技術是什麼?看完這篇文章你就懂了
- NEO技術文章徵集大賽
- 資料水印技術的獨門絕技:為資料安裝可追蹤“ID”,資料洩露溯源追責有章可循
- 你和技術大牛之間的距離就差這篇文章-伺服器崩潰資料恢復方法伺服器資料恢復
- 大資料技術體系1(清華:大資料技術體系)大資料
- 那些做過爆款遊戲的中小團隊,現在怎麼樣了?遊戲
- 大資料技術 - Directus大資料
- 大資料技術 - Azkaban大資料
- 大資料技術 - Airflow大資料AI
- 大資料技術 - DataX大資料
- 大資料技術 - Canal大資料
- 大資料技術 - Maxwell大資料
- 大資料技術 - Phoenix大資料
- 大資料技術 - StarRocks大資料
- 大資料技術 - StreamX大資料
- 大資料技術 - Debezium大資料
- 大資料技術 - SuperSQL大資料SQL
- 大資料技術 - Hive大資料Hive
- 大資料技術 - Hbase大資料