新書上市 | 流行 SQL 引擎 Presto,官方實戰指南來了

圖靈小悅發表於2021-04-15

2012 年,Facebook 的使用者數量突破 10 億,成為當時全球最大的社交網路。也是在這一年,Facebook 的 Hive 資料倉儲達到了 250 PB,每天需要處理成千上萬條查詢。在 Facebook 內部,Hive 逐漸到達極限,並且它無法查詢其他資料來源。

同年,Dain Sundstrom、David Phillips、Martin Traverso 和 Eric Hwang 加入 Facebook 的資料基礎設施團隊。這個四人小分隊從零開始研發一個分散式查詢引擎,目的是為 PB 級的資料倉儲提供低延遲的即時查詢和分析。

沒人想到,這個出自四人小分隊的專案,最終一躍成為大資料互動式查詢領域的新貴。它本質上是高並行的分散式查詢引擎,快速、易用、多用途,支援不同系統上的聯邦查詢、並行查詢和橫向叢集擴充套件。Facebook 給這個專案起了一個體現其速度的名字:Presto。

pres·to (prĕs′tō)
adv, adj.
Music to be played very fast.

大資料時代的資料儲存機制日益多樣:關聯式資料庫、NoSQL 資料庫、文件資料庫、資料湖、鍵值儲存、物件儲存……面對標準不一的儲存系統,你可以利用 Presto 輕鬆打破壁壘,連通資料孤島。

如今,Presto 已經擁有欣欣向榮的開源社群,其開發者遍佈世界各地。為了幫助社群將 Presto 的 SQL-on-Anything 精髓發揮到極致,創始團隊聯合推出了首本官方實戰指南,由創始成員 Martin Traverso 參與執筆,另兩位創始成員 Dain Sundstrom 和 David Phillips 作序推薦。

enter image description here

Matt Fuller、Manfred Moser、Martin Traverso 著
張晨 黃鵬程 傅宇 譯(戳這裡直達圖書主頁)

  • SQL 領域重磅力作,Presto 官方指南
  • Presto 創始團隊、Kafka 聯合創作者推薦
  • 多位國內一線技術大咖力薦
  • 亞馬遜全五星好評

本書適合誰

Martin Traverso 在書中這樣描述。

本書是有關 Presto 分散式查詢引擎的第一本也是十分重要的一本書,面向初學者和已經在使用 Presto 的使用者。無論你的專業程度如何,我們都相信你能從本書中學到一些新知識。

enter image description here

為什麼不是 Trino 實戰

為了堅持自己的開源理想,Presto 的創始成員在 2018 年離開了 Facebook,併成立了 Presto 軟體基金會。用創始團隊的話說,“Presto 從 Facebook 畢業了”。

此後,Presto 專案有了兩個分支:一個是由 Facebook 主導的 PrestoDB 專案,另一個是由 Presto 軟體基金會維護的 PrestoSQL 專案。

在本書中文版出版前不久,2020 年 12 月,PrestoSQL 正式更名為 Trino,其吉祥物是一隻身穿宇航服的可愛兔子。

目前來看,這兩個專案還並未產生大的分化,本書中大部分的討論同時適用於這兩個專案

Trino 的官方網站也專門為本書讀者給出溫馨提示:the content of this book continues to apply to Trino(本書內容適用於 Trino)。

由於目前 Presto 的辨識度比 Trino 要高,因此中文版仍然沿用 Presto 這個名稱。

大咖說

Dain Sundstrom 和 David Phillips(Presto 之父,Presto 軟體基金會發起人)
“這本書介紹了何謂 Presto,以及能讓你將其運用自如的所有關鍵知識。”

Ashish Kumar Singh(Pinterest 大資料查詢處理平臺技術負責人)
“Presto 在 Pinterest 的資料分析中發揮了關鍵作用,你可以通過這本書學習從使用場景到如何大規模執行Presto叢集在內的重要知識。”

Jay Kreps(Apache Kafka 聯合創作者,Confluent 聯合創始人和執行長)
“對於現代雲架構,無論是社群構建還是資料的快速分析處理技術,Presto 都設定了很高的標杆。如果想構建現代化的分析技術棧,那麼這本書值得一讀。”

曹偉(PolarDB 創始人,阿里巴巴研究員)
“近些年,Presto 社群成長迅速。作為又一款 SQL-on-Hadoop 查詢引擎,它兼具優秀的效能、易用的介面和簡潔的設計。國內外包括阿里巴巴在內的許多公司使用它,其優良的架構也讓使用者很容易進行定製和擴充套件。這本書既可以作為學習 Presto 的實戰入門指南,也可以當作手冊供隨時查閱。無論你之前是否使用過 Presto,相信你都能從中受益。”

鄭鍇(Apache Hadoop PMC 成員,阿里巴巴高階技術專家)
“Presto 如何超越一時轟動的 Impala 和擁躉眾多的 Spark 成為互動式分析的龍頭?帶著這個疑問,我快速看完了全書,頗有點後知後覺、相見恨晚的感覺。Presto 一改大資料的窠臼,基於 SQL-on-Anything 的理念和開源開放的工程實踐對接大小各種資料來源,降低了解決實際問題的門檻,難怪大家都喜歡。這本書翻譯流暢,緊跟業界進展。開源大資料愛好者可以先不要急著掉進原始碼細節裡,而是從這本書的內容起步,從問題和場景入手,搞懂大資料。”

騰訊 Presto Oteam 團隊
“Presto 引擎在大資料領域的重要性不言而喻,但參考資料屈指可數,這本書正是大家期待的那本‘官方指南’。無論是 SQL 編寫、技術調研、運維部署,還是二次開發,都值得一讀。書中第三部分為企業級應用做了詳細解答,是一大亮點。”

戳這裡試讀、購買或下載隨書資源

相關文章