慘,給Go提的程式碼被批麻了

捉蟲大師發表於2022-03-08

hello大家好,我是小樓。

不知道大家還記不記得我上次找到了一個Go的Benchmark執行會超時的Bug?就是這篇文章《我好像發現了一個Go的Bug?》

之後我就向Go提交了一個PR進行修復,本想等著程式碼被Merge進去,以後也可以吹牛說自己是個Go的Contributor,但事情並不順利,今天就來分享一下這次失敗的程式碼提交。

第一次提交

在我意識到Bug時,就迫不及待想去修復,於是有了這一次提交。

在說程式碼前,先說點關於Go倉庫的問題,Go並沒有直接託管在github,而是自建的Gerrit Code Review,github上只是個映象倉庫,所有在github上提交的issue和程式碼都會被一個機器人搬運到Gerrit上。

而且Go對提交程式碼的要求是必須關聯一個issue,於是我就提了一個,自問自答了屬於是。

image

描述了一下遇到的問題,但隔天被一位大佬認為是重複問題,並且關閉了這個issue

image

但我點進去仔細看了下,和我說的應該沒有關係,他們討論的是單測超時不生效的問題,於是我狡辯了一下。

image

果然狡辯是有用的,另一位大佬同意我的觀點,於是我給他點了個贊,但他也指出我的程式碼存在問題。

下面進入今天的正題,為了便於講解,我先把有問題的程式碼段摘出來:

func (b *B) launch() {
   ...
    // n(int64)可能會溢位
   n = goalns * prevIters / prevns
   ...
}

既然知道n會溢位,還不簡單?加個判斷就完了。

image

溢位考慮不全

這位大佬說我的程式碼在防止int64溢位時不夠安全,難道溢位不是這樣判斷嗎?

image

不過還好,大佬給了一點點指導

image

同時也發來一段演示程式碼

image

果然 「show me the code」 最好使,簡單點來說就是正數溢位成了負數,再溢位就又是正數,只要溢位足夠多,結果可正可負。

得有測試

大佬還指出了另一個問題,兄弟,你寫的程式碼得有有測試啊!

image

雖然我給開源專案提交程式碼不多,但也知道這點,為什麼這次沒寫呢?主要是我覺得單測不太好寫,既然大佬提出來,硬著頭皮也得寫了。

第二次提交

第二次提交,改掉了之前判斷int64溢位的方法,用逆運算還原回去和原值做對比來看是否溢位,這個方法上次用到還是在大學的C語言課程中

image

還附加了一個單元測試

image

這個單元測試稍微解釋下:

設定了150s的單測時間,每次試探單測時,次數都加1,如果試探次數超過6次,就說明有問題,終止單測。

image

這段程式碼在上述溢位判斷加之前執行,一定是失敗的,溢位判斷加了之後,則可正常執行。

接下來就是等待回覆,等了很久很久,Go的研發週期是以半年記,等得我都差點忘了這件事了,直到一天郵件提醒我。

前方高能,來看看另一位大佬是如何review我的程式碼的。

commit message不規範

首先,commit message不規範,我的commit message是這樣的,我是在github上提交的,被機器人搬運過去。

image

給出的意見是

image

原來Go的commit message是有一個文件專門介紹的,之前沒注意到,點進去看了下

image

翻譯下就是commit message的第一行應該是簡短的摘要,並且要指出影響了哪些包,第一行後得有一個空行。

commit message的主要內容應該詳細說明變更的上下文,並解釋其作用,語句完整、標點正確,不要使用HTML、Markdown等標記語言。相關的資訊,如基準測試資料等也需要寫進來。

最後需要有關聯的issue,如果是修復某問題,需要用Fixes #12345來關聯12345號問題,如果只是解決部分問題,使用Updates #12345,如果修復的是golang.org/x/庫,使用Fixes golang/go#159

一個好的例子如下:

math: improve Sin, Cos and Tan precision for very large arguments

The existing implementation has poor numerical properties for
large arguments, so use the McGillicutty algorithm to improve
accuracy above 1e10.

The algorithm is described at https://wikipedia.org/wiki/McGillicutty_Algorithm
Fixes #159

看來我得好好改下commit message。

可以考慮整合測試

單測提了不少問題,首先是這個

image

我把Benchmark的單測包名改了,改這個是為了能呼叫包內未匯出的方法,確實不太好,但當時沒想到別的方案。

接著是不應該直接呼叫未暴露的cleanups和內部的一些變數,和上面呼應。

image

可以用flag.Lookup來set flag,這點沒用過,所以不知道。

或者可以考慮使用整合測試來代替單元測試,Go的整合測試在cmd/go/testdata/script,這個之前也沒接觸過,所以也不知道,這個整合測試具體怎麼用可以看cmd/go/testdata/script/README

這點可以看出我真是個Go新手,需要多看多學,測試不光只有單測,Go還支援整合測試。

缺少註釋

再接著看

image

這裡模擬150s的單測,大佬就提問了,這個單測真的會跑150s嗎?如果是的話,那也太長了!

如果不是,也沒給我解釋清楚啊~

還有這個

image

你咋知道執行次數一定小於6呢?Go可沒保證這個。

對於這兩點的疑問,核心問題在於沒寫註釋,別人不知道你的想法呀,如果開源的程式碼裡面充斥著這種看不懂的玩意,那不是要命。

首先對於第一個,模擬150s,實際上不會真的跑那麼久,因為後面有試探次數的限制,如果超過6次,就終止了,這個6次是怎麼得到的呢?答案其實在《我好像發現了一個Go的Bug》中。

Benchmark在一個方法上跑的最多的次數是1e9次,也就是1000000000次,如果待測試方法執行時間非常短,且在Benchmark時間比較長的情況下,計算需要執行多少次一定會溢位,所以試探的執行次數會是這個增長序列:

100、10000、1000000、100000000、100000001、100000002......

實際可能>4就完事了,可能是我之前測試的有問題,emm...

溢位需要重新考慮

image

別判斷n是否溢位,如果判斷上一層,即goalns是否大於等於 int64最大值 * prevIters是否更合理呢?

n = goalns * prevIters / prevns,goalns 是設定的執行時間(單位納秒)

看來是我格局小了,別急,還有

image

怎麼知道100 * last是不是也溢位了呢?所以我們是不是全程的計算都用float64更合理呢?

測試了下,float64範圍大的離譜,感興趣可以試試,就不貼資料了,太長!

最後說一句

雖然這次提交比較失敗,但還是有點收穫,等我忙完這陣,抽空出來再改改,說不定就被Merge了,大家祝我好運吧,今天的分享到這,我們下期再見!對了,文中的issue參考


搜尋關注微信公眾號"捉蟲大師",後端技術分享,架構設計、效能優化、原始碼閱讀、問題排查、踩坑實踐。

image

相關文章