2020年Snowflake的高調上市使得業內轟動，雲原生資料倉儲領域成為大家關注的熱點，在疫情肆虐之下國內雲原生資料倉儲創業公司獲得了融資。在大資料時代，國內外環境不同，中國的“Snowflake”們可以走出怎樣不同的路?Snowflake的發展又具哪些值得借鑑的地方?

星環科技產品經理宋宇

在DTCC2020大會上，IT168專訪了星環科技產品經理宋宇，一探究竟。

Snowflake發展的啟發

2012年成立的Snowflake致力於提供雲資料倉儲，受到股神巴菲特老爺子的青睞，同時也獲得Salesforce的認可，上市首日股價上漲112%，市值達到708億美元，如今已超過800億美元。Snowflake的上市成為2020年一大現象級事件，SaaS廠商和大資料廠商都從中看到了未來和希望。

在海量資料爆發時代，資料處理分析需求水漲船高。相關產業爆發式增長，根據IDC的資料，在2020-2024年期間，全球大資料技術與服務相關收益將實現9.6%的CAGR(年均複合增長率)，預計2024年將達到2877.7億美元。而2020年中國大資料相關市場的總體收益將達到104.2億美元，較2019年同比增長16.0%，增幅領跑全球大資料市場。

雲端計算與大資料的融合越來越緊密，Snowflake立足於雲原生資料倉儲，提供儲存計算完全分離的技術方案，相比於傳統的數倉，更加靈活、彈性，雲與數更為緊密的結合是大勢所趨，國內也有不少廠商紛紛要做中國的“Snowflake”，正如Salesforce之於CRM領域，Workday之於HR領域，雖然傳奇雖然具有不可複製性，但是總有經驗可以借鑑。

Snowflake的發展道路給國內大資料廠商很多啟發，“(Snowflake)向下比較強調中立性，在生態上能夠對接三大公有云(AWS、Azure、Google Cloud)，做好了大資料上雲的事情。其實也定義了‘有所為，有所不為’。向下最底層的雲產品不做，專注做好大資料，並做好與雲產品的對接，成為了B+C的經典。向上，對應到應用層，提高大資料產品的易用性，提供更貼心的服務而不是簡單的產品。我們也看到很多采訪和分析機構這樣形容它：以後再也不用自己造房子，而是可以租用房子居住了。這樣的理念說到底是把通用的服務包裝好，方便使用者直接拎包入住。從這一點上來說，對於我們很有啟發意義。”宋宇總結道。

中美之間企業IT治理水平和市場環境有很大不同，比如國內企業對資料上雲的顧慮，以及對定製化需求較多等。這些差異導致中國的“Snowflake”會有很大的不同，宋宇重點提到了大資料廠商和雲廠商的關係問題，“公有云廠商自然而然想到大資料對上層應用來講是基礎的軟體，對於雲廠商來講是上面的一層，很多的雲廠商會不會考慮將之納入產品線範疇，成為自己B+C一體化的解決方案。如此一來，做大資料的廠商就沒有那麼大的生存空間，這是一個大資料廠商所要博弈和考慮的問題。這是中國市場和美國市場最大的不同。”

環境影響個體，不同的環境會塑造出不同的人，也能塑造不同的企業，同樣地，個體是構成環境的一部分，也推動著環境演進，以星環科技為代表的大資料公司正在大資料時代不斷探索。

大資料時代的金羊毛

傳說古希臘海洋的另一端有象徵財富的金羊毛，很多人都去尋找但最終葬身大海，後來伊阿宋和一眾英雄們建造了Argo號船，終於乘船翻洋過海取得了金羊毛。“我們現在處於資訊大爆炸的時代，許多企業要面對大資料的汪洋大海，如果我們沒有一個強大的工具，只能望洋興嘆。而星環科技推出的分散式快閃記憶體資料庫ArgoDB就是一款立足現在、展望未來的硬科技產品，有了它，我們的客戶就能安全可靠地航行於大資料的海洋中，去創造出更大的企業價值。”宋宇曾如此介紹星環科技推出的ArgoDB。

2018年5月，星環科技釋出分散式快閃記憶體資料ArgoDB，與Snowflake一樣是面向OLAP場景，打榜TPC-DS並取得非常矚目的成績。星環科技OLAP資料庫共有Inceptor和ArgoDB兩款產品，Inceptor是基於Hadoop打造，ArgoDB是完全自研面向新型儲存硬體設計的分散式分析型資料庫產品，面向企業的資料湖、離線批處理資料倉儲、線上分析處理資料集市業務場景。

挖掘資料價值離不開大資料技術的支援，Hadoop和MPP(超大規模並行處理)是大資料技術的兩條經典技術路線，各有優缺點。隨著企業資料量增大，很多企業都會選則基於Hadoop建立資料倉儲，Hadoop擴充套件性強，但是分析效能較弱。很多企業後又引入MPP，MPP在分析效能場景下，效能較好，但是MPP現在大多都是由專門的廠商來搭載專門硬體，非常昂貴，擴充套件性差。“Hadoop入倉，MPP查詢分析”的“Hadoop+MPP”混合架構一度成為資料分析領域非常經典的組合。但是隨著大資料技術應用的深入，企業需求越來越複雜，離線業務與線上業務並存，分析業務與檢索業務並存，結構化資料與非結構化資料並存，傳統大資料架構有了短板，需要多種架構多款產品，導致平臺更加複雜，運維和實施成本上升，Hadoop+MPP的經典組合也遇到了挑戰。

ArgoDB立足於一站式替代Hadoop+MPP架構，採取存算分離分散式架構，“星環科技做ArgoDB的時候，汲取前人經驗，努力揚長避短，考慮這兩者(Hadoop、MPP)之間有沒有需要融合和取長補短的地方，也做了很多自己思考的判斷。”宋宇介紹，ArgoDB既考慮了Hadoop橫向擴充性不設限的好處，以及細化分散式的構想，同時也採納MPP對效能優化的理念。比如在分散式儲存方面，不同於MPP以1/4節點作為儲存單元，ArgoDB採用128-256M塊資料為單位，能夠實現全方位細粒度的分散式管理，可以單節點擴容。“我們認為資料應該真正實現細粒度分散式，應當隨著硬體的選擇，排程效能上的需求來進行切分，而不是貼合管理上的需求，做粗粒度的切分。”

據悉，國內採用Hadoop+MPP架構的企業通常資料量有一定規模，分析場景有一定複雜性，有一定的效能要求。宋宇認為現在正在替換的路上，各行業發展不同，需求有異。目前來看金融領域有較大替換訴求，政府、軍工和郵政等行業也有相關需求。

宋宇印象比較深刻的是一個核心金融客戶，有8000多個指令碼，平均每個指令碼2000-3000行，最長有10000行，雖然星環科技已經有很多年數倉方面的積累，但該金融客戶的系統複雜度還是遠超原先想象，對SQL的各方面(包括不太常見的命令)都有涉足，需要提供產品化能力和平滑遷移能力，“我們必須要解決平滑遷移的問題，把所面臨很具體的一個個難題逐個解決掉。”宋宇介紹，緊要關頭星環科技決定通過攻關小組，在很緊張的時間裡，把8000多個指令碼存在的問題排查到零，最後交給客戶一個滿意的答案。同時，通過這樣一個專案，使得ArgoDB的產品能力進一步進化。

談到ArgoDB的差異性，宋宇總結了三點，一是對新硬體採用比較深入的優化和貼合的合作戰略。二是架構方面，星環科技在Hadoop方面有長期經驗積累，在Hadoop和MPP上取長補短。三是星環科技產品平臺化佈局，分散式圖資料庫StellarDB以及分散式交易型資料庫KunDB等星環科技的諸多產品為提供企業一站式解決方案提供了助力，同時星環科技有很多通用元件和各個領域的專家在支撐各個元件進一步提升效能。

對於很多技術型公司而言，保持對技術的敏感度並找對技術路線並不容易，而這也是成敗的關鍵。宋宇認為一方面創業團隊有技術基因非常重視研發，保持高投入，同時研究和開發分開，除了日常開發，還有研究性投入，星環科技產品推出之前一般都有3-5年的投入。此外，積極參與社群，注重產學研結合，鼓勵創新等，“各方面都來保障對技術保持敏感性，而不會出現只悶頭走路，不抬頭看路的現象。”宋宇期待2021年在最核心、最硬核的領域能有零的突破，產生標杆性實踐，相信ArgoDB能夠更上一層樓。

ArgoDB如何取得大資料時代的金羊毛?

相關文章