開源大資料週刊-第99期

開源大資料發表於2018-09-12

資訊

技術

  • 為什麼已有Kafka,我們最終卻選擇了Apache Pulsar?
    本文主要介紹了一家商業公司在使用 Kafka 作為事件匯流排時遇到的問題,主要是效能、可擴充套件性以及一些技術性限制。比如 Kafka Broker 是繫結儲存狀態的,擴充套件或縮小 Kafka 叢集需要重新平衡分割槽,而 Pulsar Broker 是無狀態的,真正的做到了計算和儲存分離。Pulsar 還有一些其他的優點。這篇文章可以說是訊息系統選型的一個良好案例。
  • 先過濾後解析:史丹佛開源資料解析引擎Sparser,解析提速22倍
    很多大型資料應用程式通常在非結構化或半結構化的原始資料格式(如 JSON)上執行。查詢這些檔案常常是非常耗時的,尤其是那些探索性應用程式,資料科學家用來執行查詢以探索及更好地理解其資料。令人驚訝的是,這些應用程式實際上有 80%-90% 的執行時間是用於解析資料,而不是用於評估實際查詢本身。因此,解析實際上才是瓶頸。這篇文章介紹了介紹 Sparser,一個來自史丹佛 DAWN 團隊的一個研究專案,該專案解決了這個效能瓶頸。
  • Apache Flink狀態管理和容錯機制介紹
    本文詳細介紹了Flink的狀態管理和容錯機制,內容包括有狀態的流資料處理、Flink中的狀態介面、狀態管理和容錯機制實現等。
  • Apache HBase中等物件儲存MOB壓縮分割槽策略介紹
    Apache HBase 中等物件儲存(Medium Object Storage, 下面簡稱 MOB)的特性是由 HBASE-11339 引入的。該功能可以提高 HBase 對中等尺寸檔案的低延遲讀寫訪問(理想情況下,檔案大小為 100K 到 10MB),這個功能使得 HBase 非常適合儲存文件,圖片和其他中等尺寸的物件。本文對這一特性進行了詳細的介紹。


相關文章