話題探討:GitHub不用分散式,能說明什麼?

魚論 發表於 2022-06-16
Github
話題探討:GitHub不用分散式,能說明什麼?

題圖:來自unsplash(Volodymyr Hryshchenko)


最近,老魚看到一篇文章,標題是《值75億美金的GitHub都不用分散式,你的資料庫也不需要》,有點意思,有意思的不在極致的分庫分表,而是可以延伸出幾個特別值得探討的話題。


一、市值是否等同於資料庫複雜度?

二、GitHub不用分散式,能說明什麼?

三、分散式與集中式只能非此即彼?

四、分散式是中國特色還是全球趨勢?


老魚對GitHub業務不瞭解,不敢妄下評論,所以,找來幾個資料庫老炮,大家一起來探討下。


市值是否等同於資料庫複雜度?


市值75億美金,等同於資料庫複雜度高?小公司,資料庫就很簡單?其實,並不一定。


一個企業的資料庫複雜度與業務複雜度是有關聯度的,但跟市值卻不完全對應,可能有公司市值小,但資料庫超級複雜,有的公司很大卻很簡單。

---楊傳輝(花名:日照)OceanBase CTO


要做個對比的話,GitHub的業務肯定沒有金融複雜,過去幾年,GitHub發生了好幾次當機時間超過一天的事故,並且這幾次事故大多是因為資料庫問題,前幾次的事故是資料同步,一致性問題,同樣的事故,如果平移到金融機構,肯定不能忍受。所以,脫離業務複雜度,脫離業務本身的社會屬性去討論技術,本身是有問題的。


據我觀察,小公司不一定就只有小資料,也可能有大資料,也可能有高併發的業務量。但是小公司對於基礎架構的投入或者說對於基礎架構的重視程度,可能有所不同。


---黃東旭 PingCAP聯合創始人兼CTO


GitHub不用分散式能說明什麼?


GitHub不用分散式,不帶代表這部分工作不存在,不用分散式,只是一個技術偏好選項的問題,並不能說明其它問題。


複雜度是守恆的,GitHub沒用分散式,不代表這部分工作就不做了,這部分工作可能是在應用層、中間層做了。從資料庫的角度看,分散式資料庫把複雜留給資料庫,把簡單留給應用,應用不需要關注底層資料庫容量、事務、伸縮擴容、一致性備份等等很多問題。


國外使用者規模可能沒有中國市場這麼凸顯,因為中國有人口紅利。另外,是用分散式產品去解決,還是用分散式解決方案去解決?這又是另外一個思路,單機資料庫一樣可以做這個事情。


---王偉民 阿里雲資料庫事業部產品與解決方案部總經理


一個公司用什麼樣的資料庫跟其開發人員有關係,開發人員比較強,用NoSQL系統也可以把所有業務做得好。如果把業務複雜度推給客戶,讓客戶做改造,也能玩得轉。尤其是越偏網際網路業務改造越多,越偏傳統企業業務改造反而越少。

---楊傳輝(花名:日照)OceanBase CTO


其實,我確實認識一個GitHub做資料庫的團隊,他們就非常喜歡分庫分表,這是一個技術偏好選項的問題,不同的公司情況各不相同。


比如說你可以說不需要新一代的分散式資料庫,還是可以依賴單機資料庫去維護1000個MySQL分片,那是可以的,但前提是,你能找到像GitHub一樣維護1000個甚至幾千個MySQL分片,非常厲害的分庫分表工程師。我覺得這個門檻對於大多數公司來說還是太高了。


所以,我們在做的事,是把這個技術門檻拉低了,就像蘋果一樣,你當然可以說現在還可以用諾基亞,但為什麼大家不用諾基亞呢?


---黃東旭 PingCAP聯合創始人兼CTO


分散式與集中式只能非此即彼?


分散式雖然近年非常火,但並不是新東西,分散式資料庫在資料庫歷史的早期就有了,其研究始於20世紀70年代,世界上第一個分散式資料庫系統SDD-1是由美國計算機公司(CCA)於1979年在DEC計算機上實現。


從時間上看,有關分散式架構與集中式架構孰優孰劣的討論已經持續了30多年時間,到現在也沒見誰消失。


因此,分散式與集中式是資料庫技術發展背後的兩股重要力量,二者並不是取代關係,而是兩者都在發展和進步,但步調並不一致。有時會制約對方,有時又促進對方,糾纏不清,相愛相殺,但總體來說都是在推動著資料庫 向前發展。


分散式和單機,其發展是螺旋互動上升的。早年Neo4j(市佔率最高的圖資料庫)堅定走優化單機的技術路線,甚至去與IBM大型機合作,但最近也開始重點發展分散式能力。因為分散式不僅能突破單機資料儲存的瓶頸,也在高可用、高併發等場景下有不可比擬的優勢。


分散式或者單機的發展,與資料增長以及支援其儲存計算的底層軟硬體設施的發展是慼慼相關的。分散式技術可以通過大量便宜的通用硬體,完成昂貴的大型機能完成的大資料處理任務。比如,谷歌的資料量那麼大,都放在昂貴的大型機上,估計早就破產了。


集中式(單機)有沒有可能在以後某一天,突然又紅火起來?我認為是可能的,比如哪一天量子計算機出來,單機算力提升很多,使得一臺機器上能做現在一千臺機器做的事情,那單機極致優化可能又再次成為主流。


更遠的未來的哪天可能又有新的市場環境以及需求場景,又從單機到多機迴圈,從更長的技術歷史長河來看,兩者互動螺旋上升。


---張晨 浙江創鄰科技有限公司創始人、CEO


分散式與集中式系統會持續發展,但集中式系統僅會活躍於特定領域和業務。


過去20年資料庫技術發展路線大致可分為從效能受限的集中式系統,到取捨CAP的NoSQL系統,再到保證ACID事務特性的NewSQL系統。


隨著理論發展和新硬體的不斷湧現,分散式系統逐漸實現了集中式系統的特色功能,並維持高可用、可擴充套件等技術優勢,也將不斷蠶食集中式系統的應用空間。


--- 呂程  星環科技聯合創始人、研發副總裁


分散式是中國特色還是全球趨勢?


毫無疑問,分散式是全球趨勢而非中國特色。


國內的分散式更廣泛,本質還是因為中國龐大的人口基數與人口密度、以及高度發展的經濟產生了大量的使用者、行為、運營資料,讓大量企業具備了單機無法處理的資料體量。這是一個不可逆的趨勢。


國外雖然沒有相同的市場環境,但分散式技術在國外的起步很早,隨著各大科技巨頭不斷的技術輸出,分散式技術在各個領域都被廣泛的使用,主流廠商的主流技術產品都在發展分散式的能力。


總的來說,分散式趨勢我認為是世界範圍的,並不僅限於中國。


---張晨 浙江創鄰科技有限公司創始人、CEO


系統分散式化是全球趨勢,當下全球市場廣受追捧的數字貨幣、隱私計算、物聯網等應用,其背後資料所呈現的複雜性、異構性、龐大性,是集中式系統有限算力和儲存容量無法滿足的。


國內主流大廠和新興資料庫廠商,在分散式技術儲備上已可媲美國外同行。新應用產業在國內擁有巨大發展潛力,將推動國內分散式技術的發展和落地。


--- 呂程 星環科技聯合創始人、研發副總裁


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11310314/viewspace-2843203/,如需轉載,請註明出處,否則將追究法律責任。