開源大資料週刊-第104期

開源大資料發表於2018-10-26

資訊

從智慧手機到可穿戴裝置,從醫療到汽車以及工業製造,邊緣計算正在上演一個又一個行業傳奇,它的落腳點是要讓終端成為更智慧的存在——能夠實時處理資料、能夠低延時做出反饋——這不就是我們期待中的智慧裝置嗎?

不久前,Facebook 在首屆 PyTorch 開發者大會發布了 PyTorch1.0 預覽版,標誌著這一框架更為穩定可用。從去年年初發布以來,PyTorch 已經成為明星框架,發展速度甚至有力壓 TensorFlow 的趨勢。據網友統計,在最新的 ICLR 2019 提交論文中,提及 TensorFlow 的論文數量從 228 升到了 266,而提及 PyTorch 的論文數量從 2018 年的 87 激增到了 252,這是否也是 PyTorch 即將趕超 TensorFlow 的又一證明?

我們正在進入資料科學實踐的新階段,即“無程式碼”時代。 像所有重大的變化一樣,這個變化還沒有在實踐中清晰地體現,但這個變化影響深遠,發展趨勢非常明顯。

技術

Kafka是低開銷和易於橫向擴充套件的分散式訊息解決方案。本文介紹十個讓Kafka服務更加高效簡單的運維建議,包括ZooKeeper叢集調整,配置調優和安全協議等。

近些年,企業對資料服務實時化服務的需求日益增多。本文整理了常見實時資料元件的效能特點和適用場景,介紹了美團如何通過 Flink 引擎構建實時資料倉儲,從而提供高效、穩健的實時資料服務。

Apche Pulsar的特性包括:保證不丟失訊息、強順序性保證、可預測的讀寫延遲。本文自頂向下討論各個層次的設計思想,以及Pulsar+BookKeeper(分散式日誌儲存解決方案)對比Kafka的不同點。

本文首先對 spark streaming 嵌入 kafka 的方式進行歸納總結,之後簡單闡述 Spark streaming+kafka 在輿情專案中的應用,最後將自己在 Spark Streaming+kafka 的實際優化中的一些經驗進行歸納總結。


版權宣告:資訊都是來自網際網路,如果侵權,請聯絡我們,我們負責刪除。

阿里雲E-Mapreduce團隊出品


相關文章