我搞CRUD的，你跟我說演算法有用？【石杉的架構筆記】

個人公眾號：石杉的架構筆記（ID:shishan100）

很多Java開發同學經常有一個疑惑，搞Java開發也需要懂演算法嗎？本文我們們就來談談這個問題。

其實如果你開發一個非常複雜而且有挑戰的大型系統，那麼必然會在系統中使用演算法。同理，如果你可以將演算法進行合理的優化，那麼也可以將系統效能提升幾十倍！

空口無憑，下面用真實案例來進行說明。我們一起來看看Hadoop在部署了大規模的叢集場景下，大量客戶端併發寫資料的時候，檔案契約監控演算法的效能優化。

Hadoop是世界上最複雜的基於Java開發的分散式系統，因此我們選用它來進行舉例。從它的演算法優化對系統效能的提升，就可以看出演算法對於Java程式設計師們開發系統的重要性。

首先看懂這篇文章需要一些Hadoop的基礎知識背景，瞭解其架構原理，所以還不太瞭解的同學，先看看之前的文章：《兄弟，用大白話告訴你小白都能聽懂的Hadoop架構原理》。

先給大家來引入一個小的背景，假如多個客戶端同時要併發的寫Hadoop HDFS上的一個檔案，大家覺得這個事兒能成嗎？

明顯不可以接受啊，兄弟們，HDFS上的檔案是不允許併發的寫的，比如併發的追加一些資料什麼的。

所以說，HDFS裡有一個機制，叫做檔案契約機制

也就是說，同一時間只能有一個客戶端獲取NameNode上面一個檔案的契約，然後才可以寫入資料，此時其他客戶端嘗試獲取檔案契約的時候，就獲取不到，只能乾等著。通過這個機制就可以保證同一時間只有一個客戶端在寫一個檔案。

在獲取到了檔案契約之後，在寫檔案的過程期間，那個客戶端需要開啟一個執行緒來不停的傳送請求給NameNode進行檔案續約，告訴NameNode：大哥，我這還在寫檔案呢，你給我一直保留那個契約好嗎？

NameNode內部有一個專門的後臺執行緒負責監控各個契約的續約時間，如果某個契約很長時間沒續約了，此時就自動過期掉這個契約，讓別的客戶端來寫。

大家看下面的圖：

好，問題來了，假如我們有一個大規模部署到hadoop叢集，同時存在的客戶端可能多達成千上萬個，此時NameNode內部維護的那個檔案契約列表會非常非常的大。

而監控契約的後臺執行緒又需要每隔一段時間就檢查一下所有的契約是否過期，比如每隔幾秒鐘就遍歷大量的契約，那麼勢必造成效能不佳，明顯這種契約監控機制是不適合大規模部署的hadoop叢集的。

那Hadoop是如何對檔案契約監控演算法進行優化的呢？我們們一步一步看一下他的實現邏輯，先一起來看下圖：

奧祕十分的簡單，每次一個客戶端傳送續約請求之後，就設定這個契約的最近一次續約時間，然後基於一個TreeSet資料結構來根據最近一次續約時間對契約進行排序，每次都把續約時間最老的契約排在最前頭，這個排序後的契約資料結構十分的重要。

TreeSet是一種可排序的資料結構，他底層基於TreeMap來實現，而TreeMap底層基於紅黑樹來實現，可以保證元素沒有重複，同時還能按照我們自己定義的排序規則在你每次插入一個元素的時候來進行自定義的排序。

所以這裡我們的排序規則，就是按照契約的最近一次續約時間來排序即可。

其實這個優化就是如此的簡單，就是維護這麼一個排序資料結構而已。然後我們可以看一下Hadoop中的契約監控的原始碼實現：

怎麼樣？是不是不得不佩服那些寫出Hadoop、Spring Cloud等優秀開源專案的大牛的技術水平，大量的閱讀各種複雜而且優秀的開源專案的原始碼，確實是可以快速的提升一個人的架構能力、技術能力和技術視野，這也是我平時花費大量時間做的事情。

每次檢查契約是否過期的時候，你不要遍歷成千上萬的契約，那樣遍歷效率很低下，完全可以就從TreeSet中獲取續約時間最老的那個契約

假如說連最近一次續約時間最老的那個契約都還沒過期，那麼就不用繼續檢查了啊！因為說明續約時間更近的那些契約絕對不會過期！

舉個例子，續約時間最老的那個契約，最近一次續約的時間是10分鐘以前，但是我們判斷契約過期的限制是超過15分鐘不續約就過期那個契約。

這個時候連10分總以前續約的契約都沒有過期，那麼那些8分鐘以前，5分鐘以前續約的契約，肯定也不會過期了，就是這個意思！

這個機制對效能的提升是相當有幫助的，因為正常來說，過期的契約肯定還是佔少數，所以壓根兒不用每次都遍歷所有的契約來檢查是否過期，只要檢查續約時間最舊的那幾個契約就可以了。

如果一個契約過期了，那麼就刪掉那個契約，然後再檢查第二舊的契約好了。以此類推。

通過這個TreeSet排序 + 優先檢查最舊契約的機制，有效的將大規模叢集下的契約監控機制的效能提升至少10倍以上，這個思想，在我們自己進行系統設計時，是非常值得我們學習和借鑑的。

給大家引申一下，在Spring Cloud微服務架構中，Eureka作為註冊中心其實也有續約檢查的機制，跟Hadoop是類似的（不清楚的同學建議看一下：《拜託，面試請不要再問我Spring Cloud底層原理！》）

但是在Eureka中就沒有實現類似的續約優化機制，而是暴力的每一輪都遍歷所有的服務例項的續約時間。

假如你是一個大規模部署的微服務系統呢？比如部署了幾十萬臺機器的大規模系統，有幾十萬個服務例項的續約資訊駐留在Eureka的記憶體中，你難道要每隔幾秒鐘遍歷一下幾十萬個服務例項的續約資訊嗎？

相信看到這裡，本文開頭提出的Java工程師是否也要懂一些演算法，大家心裡也有答案了吧！

END

歡迎長按下圖關注公眾號：石杉的架構筆記！

公眾號後臺回覆資料，獲取作者獨家祕製學習資料

石杉的架構筆記，BAT架構經驗傾囊相授

相關文章