探索 .git 目錄,讓你真正理解 git

Pierre de Wulf發表於2016-03-20

“哇歐,我才讀了 git 的快速入門指南就覺得它簡直酷斃了,現在使用起 git 來感覺超舒服,媽媽再也不擔心我會捅出什麼簍子了。”—— 某位無名英雄曾曰過

新人剛使用 git 的時候,就像去到一個既不識當地文字也不會說當地語言的陌生的國家。只要你知道你在什麼地方、要去哪裡,一切都 OK,而一旦你迷路,麻煩就來了。

網上已經有許多關於學習基本的 git 命令的文章,但是本文不屬於這一類,而是嘗試另闢蹊徑。

新手總是被 git 嚇到,事實上也很難不被嚇到。可以肯定的是 git 是很強大的工具但還不夠友好。大量的新概念,有些命令用檔案做引數和不用檔案做引數各自執行的動作截然不同,還有隱晦的回饋等…

我以為克服第一道難關的方法就是不僅僅是使用 git commit/push 就完了。如果我們花點時間去真正瞭解到底git是由什麼構造的,那將會省去不少麻煩。

初探 .git

那麼我們開始吧。當你建立一個倉庫的時候,使用 git init 指令, git 將會建立一個神奇的目錄:.git。這個目錄下包含了所有 git 正常工作所需要的資訊。說白一點,如果你想從你的專案中刪除 git 但是又要保留專案檔案,只需要刪除 .git 資料夾就可以了。但是,你確定要辣麼做?

├── HEAD
├── branches
├── config
├── description
├── hooks
│ ├── pre-commit.sample
│ ├── pre-push.sample
│ └── ...
├── info
│ └── exclude
├── objects
│ ├── info
│ └── pack
└── refs
├── heads
└── tags

這就是你第一次提交之前 .git 目錄的樣子:

  • HEAD
    這個我們稍後會討論
  • config
    這個檔案包含你倉庫的設定資訊。例如這裡會放你遠端倉庫的 URL,你的 email 地址,你的使用者名稱等…。 每次你在控制檯使用“git config…”指令時,修改的就是這裡。
  • description
    gitweb(可以說是 github 的前身)用來顯示倉庫的描述。
  • hooks
    這是一個有意思的特性。Git 提供了一系列的指令碼,你可以在 git 每一個有實質意義的階段讓它們自動執行。這些指令碼就是 hooks,可以在 commit/rebase/pull…. 的前後執行。指令碼的名字表示它什麼時候被執行。例如一個有用的預推送 hook 可能會測試關於保持遠端倉庫一致性的式樣原則。
  • info — exclude
    你可以把你不想讓 git 處理的檔案放到 .gitignore 檔案裡。那麼,exclude 檔案也有同樣的作用,不同的地方是它不會被共享,比如當你不想跟蹤你的自定義的 IDE 相關的配置檔案時,即使通常情況下 .gitignore 就足夠了(如果你用到了這個請在評論中告訴我)。

commit 的真相

每一次你建立一個檔案並跟蹤它會發現,git 會對其進行壓縮然後以 git 自己的資料結構形式來儲存。這個壓縮的物件會有一個唯一的名字,即一個雜湊值,這個值存放在 object 目錄下。

在探索 object 目錄前,我們先要問自己 commit 到底是何方神聖。commit 大致可以視為你工作目錄的快照,但是它又不僅僅只是一種快照。

實際上,當你提交的時候,為建立你工作目錄的快照 git 只做了兩件事:

  1. 如果這個檔案沒有改變,git 僅僅只把壓縮檔案的名字(就是雜湊值)放入快照。
  2. 如果檔案發生了變化,git 會壓縮它,然後把壓縮後的檔案存入 object 目錄。最後再把壓縮檔案的名字(雜湊值)放入快照。

這裡只是簡單介紹,整個過程有一點複雜,以後的部落格裡會作說明的。

一旦快照建立好,其本身也會被壓縮並且以一個雜湊值命名。那麼所有的壓縮物件都放在哪裡呢?答案是object 目錄。

├── 4c
│ └── f44f1e3fe4fb7f8aa42138c324f63f5ac85828 // hash
├── 86
│ └── 550c31847e518e1927f95991c949fc14efc711 // hash
├── e6
│ └── 9de29bb2d1d6434b8b29ae775ad8c2e48c5391 // hash
├── info // let's ignore that
└── pack // let's ignore that too

這就是我建立一個空檔案 file_1.txt 並提交後 object 目錄看起來的樣子。請注意如果你的檔案的雜湊值是“89faaee…”,git 會把這個檔案存在 “89” 目錄下然後命名這個檔案為 “faaee…”。

你會看到3個雜湊。一個對應 file_1.txt ,另一個對應在提交時所建立的快照。那麼第三個是什麼呢?其實是因為 commit 本身也是一個物件並且也被壓縮存放在 object 目錄下。

現在,你需要記住的是一個 commit 包含四個部分:

  1. 工作目錄快照的雜湊
  2. 提交的說明資訊
  3. 提交者的資訊
  4. 父提交的雜湊值

如果我們解壓縮一個提交,你自己可以看看到底是什麼:

// by looking at the history you can easily find your commit hash
// you also don't have to paste the whole hash, only enough    
// characters to make the hash unique
git cat-file -p 4cf44f1e3fe4fb7f8aa42138c324f63f5ac85828

這是我看到的

tree 86550c31847e518e1927f95991c949fc14efc711
author Pierre De Wulf <test@gmail.com> 1455775173 -0500
committer Pierre De Wulf <test@gmail.com> 1455775173 -0500
commit A

如你所見我們得到了所期望看到的的:快照的雜湊,作者,提交資訊。這裡有兩樣東西很重要:

  1. 正如預料的一樣,快照的雜湊 “86550…” 也是一個物件並且能在object目錄下找到。
  2. 因為這是我的第一個提交,所以沒有父提交。

那我的快照裡面到底是些什麼呢?

git cat-file -p 86550c31847e518e1927f95991c949fc14efc711
100644 blob e69de29bb2d1d6434b8b29ae775ad8c2e48c5391 file_1.txt

到這裡我們看到的最後一個物件是我們先前提到的唯一會存在於快照中的物件。它是一個 blob(二進位制檔案),這裡就不作深究了。

分支,標籤,HEAD 都是一家人

那麼現在你知道 git 的每一個物件都有一個正確的雜湊值。現在我們來看看 HEAD 吧!那麼,在 HEAD 裡又有什麼呢?

cat HEAD
ref: refs/heads/master

這看起來 HEAD 不是一個hash,倒是容易理解,因為 HEAD 可以看作一個你目前所在分支的指標。如果我們看看 refs/heads/master,就會發現這些:

cat refs/heads/master
4cf44f1e3fe4fb7f8aa42138c324f63f5ac85828

是不是很熟悉?是的,這和我們第一個提交的雜湊完全一樣。由此表明分支和標籤就是一個提交的指標。明白這一點你就可以刪除所有你想刪除的分支和標籤,而他們指向的提交依然在那裡。只是有點難以被訪問到。如果你想對這部分了解更多,請參考git book

尾聲

到目前為止你應該瞭解到, git 所做的事就是當你提交的時候“壓縮”當前的工作目錄,同時將其和其他一些資訊一併存入 objects 目錄。但是如果你足夠了解 git 的話,你就能完全控制提交時哪些檔案應該放進去而哪些不應該放。

我的意思是,一個提交併非真正意義上是一個你當前工作目錄的快照,而是一個你想提交的檔案的快照。在提交之前 git 把你想提交的檔案放在哪裡? git 把他們放在 index 檔案裡。我們現在不會去深入探究 index,同時如果你確實好奇你可以參考這裡

鳴謝

我希望透過本文你更好的理解了 git 的核心概念。如果你有任何問題和評論,請毫不猶豫的告訴我,你也可以在 twitter 上粉我。

下一次我們談談 git 的變基rebase,下次見,祝愉快。

相關文章