深度解析:清理爛程式碼

jobbole發表於2013-07-03

  猜猜看怎麼了!你正”繼承“(接收)了一堆混亂的舊程式碼。恭喜你!現在都是你的了。混亂的程式碼可能來自任何地方。中介軟體,網路,可能來自你自己的公司。

  你知道在一個角落裡有一個傢伙,沒有人過去管他在做什麼。猜猜看他一直在做什麼?辛辛苦苦寫出了程式碼,卻是一堆爛程式碼。

  你還記得這個模組是一個傢伙幾年前寫的,在他離開公司之前。這個模組已經有20個不同的人加過補丁,進行過程式碼修復,而且他們也並不理解程式碼到底是做了什麼。是的,就是這樣的程式碼。

  或者你從網上下載下的開源的軟體,你知道它非常的可怕,但是它解決了一個非常專的並且對你來說非常棘手的問題,解決這個問題你可能要花上幾年。

  爛程式碼不一定是問題,只要它們沒有出錯,沒有人會對它嗤之以鼻。但不幸的是,它們沒被發現的機率太小了。錯誤會被發現。需要新的功能,新系統釋出了。現在你不得不面對這堆恐怖的程式碼,試著去清理它們。這篇文章為這種不幸的情況提供了一些建議。

  0. 值得清理麼?

  第一件你需要問問自己的事情就是程式碼值得清理麼。我不是說當問到是否要清理程式碼時,你一定要回答是或者一定回答不是。是你對程式碼負有責任,也是你需要一直面對它們直到最終寫出的程式碼是你樂意維護的,也是你很自豪的放入程式碼庫的。

  如果你覺得就算程式碼看起來很可怕,也不值得浪費你本來就很緊張的時間來修復它們。所以你僅僅做了最最微小的調整解救燃眉之急。

  換句話說,你也可以將程式碼看作自己的,也可以看作是別人的。

  兩種情況都有優缺點。優秀的程式設計師看到爛程式碼時會覺得很難受。他們會拿出火把和叉子並且高呼:“太亂了,太亂了”。這是一種優秀的品質。

  但是清理程式碼是一個繁雜的工作。很容易就低估了時間。甚至有時候和從頭開始寫程式碼一樣的耗時。並且短期並沒有帶來任何的短期效應。兩個星期的時間清理程式碼並不會帶來任何新的功能,但有可能引入一些新的錯誤。

  另一方面,如果長時間不清理程式碼可能會帶來災難性的毀滅。混亂是程式碼的殺手。

  所以,這並不是一個容易做出的決定。需要考慮一些事情:

  ● 你期望對這段程式碼做多少改變?你是希望僅僅修改這個小錯誤呢,還是這段程式碼還要使用多次,所以你希望將它“調教”的好些,並且加上新的功能。如果僅僅是修復一個錯誤,那麼最好是別打草驚蛇。然而,如果這個模組你需要長期折騰的話,那麼現在開始花點時間來清理它吧,之後會省掉很多煩惱。

  ● 你需要或者是你想引入上游的更新嗎?它是一個正在開發當中的開源專案嗎?如果是的話,並且你想做改變的是上游的程式碼,那麼你不能對程式碼有大的改動否則當你每次pull程式碼的時候都會經歷一場merge的噩夢。所以你需要做一個友好的團隊合作者,接受這個錯誤,將帶有你修正的程式碼補丁發給程式碼的維護者。

  ● 要做多少工作?你一天內實際上能清理多少行程式碼?我們估計多於100行,少於1000行,好,我們假設是1000行。所以如果一個模組有30,000行程式碼的話,你可能需要一個月的時間。你有那麼多時間嗎?值得這麼做麼?

  ● 它是你核心的功能嗎?如果這個模組只是邊緣的模組,譬如字型渲染或者影像渲染,你可能並不在意它是否是亂七八糟的。你可能全盤不要,將來用另外的東西來代替,誰知道呢。如果這段程式碼關乎核心的效能,你需要慎重對待。

  ● 這段程式碼有多糟糕?如果程式碼僅僅有一點點糟糕,那麼可能你還是可以忍受的。如果它是不可理喻的,令人崩潰的話,那麼我們就必須對它下手了。

  1. 建立測試用例

  要認真清理一段程式碼意味著花一段時間來徹底清理它。你可能會毀壞它們。

  如果你有一個比較好的測試用例,有一定的覆蓋率,你將會很容易知道什麼已經損壞了,並且你能夠很快的知道你犯了什麼愚蠢的錯誤。想要節省建立測試用例的時間在整個的清理程式碼的過程中是可笑的。建立測試用例吧。這是你第一件需要做的事情。

  單元測試是最好的,但是所有的程式碼並不適應單元測試。如果單元測試過於繁瑣,就換用整合測試吧。譬如,一個遊戲關卡中需要一個人物完成一系列的動作和你清理的程式碼有關。

  這樣的測試更加耗時,所以不可能在每一次更改之後都測試一次,雖然這是最理想的情況。因為你將每一次改變都放到了版本控制系統中,所以情況還不是那麼糟糕。所以每一段時間(比如,五個更改)就測試一次。當你發現了一個問題時,你可以透過二進位制搜尋最近的幾次commit中找到什麼地方導致了問題的發生。

  如果你發現了測試沒有發現的問題,確保將這個也加入到測試中,以便將來可以測試它。

  2. 使用程式碼版本控制系統

  還有人需要被告知要使用程式碼版本控制系統嗎?我希望沒有。

  清理工作是很關鍵的。你可能要做很多很多小的修改。如果什麼地方出錯了,你想回顧版本歷史,你可能找到它錯在哪。

  如果你和我一樣,你可能有時重構(清理愚蠢的類)的時候會出錯,並且後來意識到這並不是個好的點子,或者這是個好點子,但是如果先做了什麼之後所有的一切會變得更簡單。所以你想快速的恢復一切到原狀並且重新開始。

  你的公司應該已經有程式碼控制系統了,你可以在不同的分支進行修改,在不打擾別人的情況下隨意的commit。

  就算情況不是這樣的,你也應該使用版本控制。下載Mercurial(或Git),建立新的倉庫,將程式碼從你們公司的愚蠢的系統中籤出並放在這裡。在庫中commit你的更改。當你完成了之後你可以將所有的一切merge到那愚蠢的系統中。

  複製庫到一個程式碼控制系統中僅僅需要幾分鐘。很值得這麼做。如果你不懂Mercurial,花一個小時學習它。你會為你這麼做感到高興的。如果你願意的話,花30個小時學習下Git(我是開玩笑的!並不用這麼久。現在是“nerd”戰鬥的時候了!)

  3. 每次僅僅做一個小小的改動

  有兩種方法改進壞的程式碼:革命和改革。革命是用火把一切都燒掉,從新寫一遍。改革是在不破壞的基礎上每次只進行一點小小的改變。

  這篇文章是關於改革的方法。我不是說革命的方法從來不是必要的。有時程式碼太糟糕了,需要用革命的方法。但是那些覺得改革的進度太慢的人們往往會鼓勵改革,然而經常沒有意識到問題的複雜性,並最終並沒有比現存的系統更好。

  Joel Spolsky寫過一篇經典的文章,他沒有掉入到這個緊張的爭論的陷阱中。

  改革的最好的方法就是一次只做一個小的改變,測試它,並且commit它。當一個改變很小時,它更容易理解改動的後果以及確保改動不會影響現有的功能。如果什麼地方出錯了,你僅僅需要核查很少的一部分程式碼。

  如果你開始做更改並且意識到改得很糟糕,那麼你恢復到上一次的commit,不會損失太多的無用功。如果你過了一段時間才發現什麼地方有細微的差錯,你可以在版本歷史中使用二進位制搜找到導致問題的更改。

  最常見的錯誤就是一次進行多處更改。譬如,當去除不必要的類層次的勢後,你發現API的方法並不是像你喜歡的使用方法,而你打算重新組織它們。不要這麼做!先去除層次結構,commit之後再更改API。

  聰明的程式設計師懂得組織,所以他們也不需要太聰明。

  試著找一個途徑,沿著這個途徑你可以把程式碼變成你想要的模樣,每次只有一點點改動。譬如,第一步你重新命名方法,使之名字更合理。下一步,你可以將成員變數變成方法的引數。然後將演演算法變得更清楚些,等等。

  如果你開始做更改,並且發現比你原先設想的改變要大,不要害怕又退回去,使用更小的更簡單的步驟去完成同樣的事情.。

  4. 不要同時清理程式碼和修正程式碼

  這是(3)的結果,但是仍然很重要。

  這是一個常見的問題。你開始察看一個模組,是因為你想加入某個新功能。然後你發現這個程式碼相當的糟糕,所以你開始重新組織它並且加入新的功能。

  問題在於清理程式碼和修正錯誤是完全不同的目標。當你清理的勢後,你想讓程式碼看起來更好,而沒有改變它的功能。當你修正錯誤時, 你想改變功能。如果你同時清理程式碼和改正錯誤,很難保證清理不會改變什麼。

  先清理程式碼,然後再在一個乾淨的基礎上,加入新的功能。

  5. 刪除你沒有使用的功能

  清理的時間正比於程式碼的數量,複雜性和糟糕的程度。

  如果程式碼的功能你目前沒有使用,而且在可預見的將來也不會使用,那麼就刪除它,這會減少你瀏覽的程式碼數,降低複雜度(刪除不必要的概念和依賴)。你會清理的更快的,而且最後的結果會更簡單。

  不要留著程式碼僅僅因為“誰知道呢,你可能某一天需要它”。程式碼是有代價的 – 它需要被移植,修正錯誤,被閱讀以及被理解。你有更少的程式碼,就更好。就算在最不可能的情況下,你需要這個舊程式碼,你也能從程式碼庫中找到它。

  6. 刪除大部分的註釋

  爛程式碼很少會有好的註釋。它們通常是這樣的:

// Pointless:
 
    // Set x to 3
 
    x = 3;
 
// Incomprehensible:
 
    // Fix for CB (aug)
 
    pos += vector3(0, -0.007, 0);
 
// Sowing fear and doubt:
 
    // Really we shouldn't be doing this
 
    t = get_latest_time();
 
// Downright lying:
 
    // p cannot be NULL here
 
    p->set_speed(0.7);

  看看整個程式碼。如果一個註釋對你來說不再有意義,也對你理解程式碼沒什麼幫助,那麼就刪除它。否則你只會浪費你的腦力去理解一堆對你理解程式碼沒幫助的註釋。

  同樣的刪除那些已經被註釋掉的程式碼。如果你還需要它的時候,它還在你的程式碼倉庫中。

  甚至如果註釋是正確而且有用的,記住你還可以重構你的程式碼。可能當你完成重構後,這些註釋不再正確了。這個世界上還沒有一個單元測試能夠告訴你註釋是否已經損壞了。

  好程式碼需要很少的註釋因為程式碼自己已經自說明瞭而且很容易理解。擁有好名字的變數不需要註釋去解釋它們的用途。函式如果有好的輸入輸出,沒有特殊情況時是不需要說明的。簡單的寫得很好的演演算法在沒有註釋的情況下也是容易理解的。而斷言記錄了條件和預測。

  大部分情況下,最好的做法是刪除所有舊的註釋,專注於讓程式碼變得乾淨和具有可讀性,然後再在需要的地方新增程式碼 – 這些註釋反應新的API的用途以及你對程式碼的理解。

  7. 避免共享的可更改的狀態

  共享的可更改的狀態是理解程式碼的最大阻礙,因為它允許隔一段距離的行動,一段程式碼可以改變另一段完全不同的程式碼的行為。人們常說多執行緒是困難的。事實上,是由於執行緒共享了可更改的狀態,才導致了問題。如果你能避免它們的話,多執行緒並不複雜。

  如果你的目標是寫高效能的軟體,你應該不能避免一切可更改的狀態,但是你的程式碼仍然可以從減少它而獲益。為了“大部分功能完善”而努力吧,確保你確切的知道什麼狀態在什麼地方改變了,並且知道原因。

  共享的可更改的狀態來自不同的地方:

  ● 全域性變數。最經典的例子。現在每個人都知道全域性變數的壞處。但是要注意(有時人們會忘記),全域性變數是唯一的會造成問題的共享的可更改狀態。全域性常量並不糟糕,Sprintf也不糟糕。

  ● 物件 – 裝有樂趣的大袋子。物件能夠集合很多方法,無疑可以共享很多可變的狀態(成員)。如果一個懶惰的程式設計師需要將一些資訊在方法之間傳遞的話,她可以建立一個新成員,所以可以依照需要來讀它和寫它。這非常像全域性變數。多麼有意思!當一個物件有越來越多的成員時,問題就越來越嚴重。

  ● 巨大的函式。你可能已經聽說它們了。這種神秘的產物棲息在最黑暗的程式碼洞穴的最底層。心眼壞的程式設計師在陰暗的酒吧裡談論它們,他們的理智被他們遇見的程式碼摧毀了:“我不停地向下翻向下翻,我不能相信自己的眼睛。居然有12,000行。”當函式足夠長的時候,它們本地變數將和全域性變數一樣糟糕。我們不可能知道改變2000行之後的一個區域性變數會有什麼效果。

  ● 引用和指標引數。引用和指標引數沒有被宣告為const被傳進函式時,可以在被呼叫者,呼叫者以及任何能被傳遞相同的指標的物件之間充當共享的可變的狀態。

  這裡有一些避免共享的可更改的狀態的建議:

  • 將較大的函式切分成較小的函式。
  • 將較大的物件切分成較小的變數,將相關的成員放在一起。
  • 將成員變成private。
  • 將函式宣告const,返回結果,而不是可更改的狀態。
  • 將函式宣告static,從引數獲得值,而不是從共享狀態那裡取值。
  • 避免完全使用物件,實現純淨的功能,不要引入副作用。
  • 將本地變數宣告const。
  • 將指標和引用宣告const。

  8. 避免不必要的複雜性

  不必要的複雜性通常是過度工程化的結果 – 支援的結構(如序列化,引用計數器,虛擬介面,抽象工廠,訪問者等等)會拖慢真正有實際功能的程式碼。

  有時候過工程化是因為一些專案開始的時候有一些更大的野心,多於實際完成的。更多的情況,我想是因為程式設計師讀了關於設計模式的書之後和瀑布模型之後的想法,他認為過工程化會形成更“堅固”和“高質量”的產品。

  通常,這個笨重的,僵化的,過度複雜的模型不能適應功能需求,而這是設計師不期望的。那些功能可能之後用hack的方式來實現,成了在象牙塔最頂上的螺栓和後門,變成了神經錯亂的混合結構。

  治癒過度工程化的方法就是YAGNI(you are not gonna need it)-你不需要它!只有當需要一個東西的時候才建造它。當你需要它的時候才建立更復雜的東西,而不是在你需要之前。

  避免不必要的複雜性的一些實際的方法:

  • 移除你沒有用到的東西(就像上面建議的一樣)。
  • 簡化必要的概念,避免不必要的概念。
  • 移除不必要的抽象,用實際的實現來替代。
  • 移除不必要的虛擬化,並且簡化物件的結構。
  • 如果一個設定曾經使用過,那麼就避免在用另外的配置來執行這個模組。

  9. 就這麼多了

  現在開始清理你的“房間”吧!

  原文連結: Niklas Frykholm    翻譯: 伯樂線上 - 唐小娟

  譯文連結: http://blog.jobbole.com/28672/

相關文章