Linux 核心偵錯程式內幕(轉)[@more@]

　　KDB 入門指南

　　除錯核心問題時，能夠跟蹤核心執行情況並檢視其記憶體和資料結構是非常有用的。Linux 中的內建內核偵錯程式 KDB 提供了這種功能。在本文中您將瞭解如何使用 KDB 所提供的功能，以及如何在 Linux 機器上安裝和設定 KDB。您還將熟悉 KDB 中可以使用的命令以及設定和顯示選項。

　　Linux 核心偵錯程式（KDB）允許您除錯 Linux 核心。這個恰如其名的工具實質上是核心程式碼的補丁，它允許高手訪問核心記憶體和資料結構。KDB 的主要優點之一就是它不需要用另一臺機器進行除錯：您可以除錯正在執行的核心。

　　設定一臺用於 KDB 的機器需要花費一些工作，因為需要給核心打補丁並進行重新編譯。KDB 的使用者應當熟悉 Linux 核心的編譯（在一定程度上還要熟悉核心內部機理），但是如果您需要編譯核心方面的幫助，請參閱本文結尾處的參考資料一節。

　　在本文中，我們將從有關下載 KDB 補丁、打補丁、（重新）編譯核心以及啟動 KDB 方面的資訊著手。然後我們將瞭解 KDB 命令並研究一些較常用的命令。最後，我們將研究一下有關設定和顯示選項方面的一些詳細資訊。

　　入門

　　KDB 專案是由 Silicon Graphics 維護的（請參閱參考資料以獲取連結），您需要從它的 FTP 站點下載與核心版本有關的補丁。（在編寫本文時）可用的最新 KDB 版本是 4.2。您將需要下載並應用兩個補丁。一個是“公共的”補丁，包含了對通用核心程式碼的更改，另一個是特定於體系結構的補丁。補丁可作為 bz2 檔案獲取。例如，在執行 2.4.20 核心的 x86 機器上，您會需要 kdb-v4.2-2.4.20-common-1.bz2 和 kdb-v4.2-2.4.20-i386-1.bz2。

　　這裡所提供的所有示例都是針對 i386 體系結構和 2.4.20 核心的。您將需要根據您的機器和核心版本進行適當的更改。您還需要擁有 root 許可權以執行這些操作。

　　將檔案複製到 /usr/src/linux 目錄中並從用 bzip2 壓縮的檔案解壓縮補丁檔案：

　　#bzip2 -d kdb-v4.2-2.4.20-common-1.bz2

　　#bzip2 -d kdb-v4.2-2.4.20-i386-1.bz2

　　您將獲得 kdb-v4.2-2.4.20-common-1 和 kdb-v4.2-2.4-i386-1 檔案。

　　現在，應用這些補丁：

　　#patch -p1

　　這些補丁應該乾淨利落地加以應用。查詢任何以 .rej 結尾的檔案。這個副檔名錶明這些是失敗的補丁。如果核心樹沒問題，那麼補丁的應用就不會有任何問題。

　　接下來，需要構建核心以支援 KDB。第一步是設定 CONFIG_KDB 選項。使用您喜歡的配置機制（xconfig 和 menuconfig 等）來完成這一步。轉到結尾處的“Kernel hacking”部分並選擇“Built-in Kernel Debugger support”選項。

　　您還可以根據自己的偏好選擇其它兩個選項。選擇“Compile the kernel with frame pointers”選項（如果有的話）則設定 CONFIG_FRAME_POINTER 標誌。這將產生更好的堆疊回溯，因為幀指標暫存器被用作幀指標而不是通用暫存器。您還可以選擇“KDB off by default”選項。這將設定 CONFIG_KDB_OFF 標誌，並且在預設情況下將關閉 KDB。我們將在後面一節中對此進行詳細介紹。

　　儲存配置，然後退出。重新編譯核心。建議在構建核心之前執行“make clean”。用常用方式安裝核心並引導它。

　　初始化並設定環境變數

　　您可以定義將在 KDB 初始化期間執行的 KDB 命令。需要在純文字檔案 kdb_cmds 中定義這些命令，該檔案位於 Linux 原始碼樹（當然是在打了補丁之後）的 KDB 目錄中。該檔案還可以用來定義設定顯示和列印選項的環境變數。檔案開頭的註釋提供了編輯檔案方面的幫助。使用這個檔案的缺點是，在您更改了檔案之後需要重新構建並重新安裝核心。

　　啟用 KDB

　　如果編譯期間沒有選中 CONFIG_KDB_OFF，那麼在預設情況下 KDB 是活動的。否則，您需要顯式地啟用它－透過在引導期間將 kdb=on 標誌傳遞給核心或者透過在掛裝了 /proc 之後執行該工作：

　　#echo "1" ＞/proc/sys/kernel/kdb

　　倒過來執行上述步驟則會取消啟用 KDB。也就是說，如果預設情況下 KDB 是開啟的，那麼將 kdb=off 標誌傳遞給核心或者執行下面這個操作將會取消啟用 KDB：

　　#echo "0" ＞/proc/sys/kernel/kdb

　　在引導期間還可以將另一個標誌傳遞給核心。kdb=early 標誌將導致在引導過程的初始階段就把控制權傳遞給 KDB。如果您需要在引導過程初始階段進行除錯，那麼這將有所幫助。

　　呼叫 KDB 的方式有很多。如果 KDB 處於開啟狀態，那麼只要核心中有緊急情況就自動呼叫它。按下鍵盤上的 PAUSE 鍵將手工呼叫 KDB。呼叫 KDB 的另一種方式是透過序列控制檯。當然，要做到這一點，需要設定序列控制檯（請參閱參考資料以獲取這方面的幫助）並且需要一個從序列控制檯進行讀取的程式。按鍵序列 Ctrl-A 將從序列控制檯呼叫 KDB。

　　KDB 命令

　　KDB 是一個功能非常強大的工具，它允許進行幾個操作，比如記憶體和暫存器修改、應用斷點和堆疊跟蹤。根據這些，可以將 KDB 命令分成幾個類別。下面是有關每一類中最常用命令的詳細資訊。

　　記憶體顯示和修改

　　這一類別中最常用的命令是 md、mdr、mm 和 mmW。

　　md 命令以一個地址／符號和行計數為引數，顯示從該地址開始的 line-count 行的記憶體。如果沒有指定 line-count，那麼就使用環境變數所指定的預設值。如果沒有指定地址，那麼 md 就從上一次列印的地址繼續。地址列印在開頭，字元轉換列印在結尾。

　　mdr 命令帶有地址／符號以及位元組計數，顯示從指定的地址開始的 byte-count 位元組數的初始記憶體內容。它本質上和 md 一樣，但是它不顯示起始地址並且不在結尾顯示字元轉換。mdr 命令較少使用。

　　mm 命令修改記憶體內容。它以地址／符號和新內容作為引數，用 new-contents 替換地址處的內容。

　　mmW 命令更改從地址開始的 W 個位元組。請注意，mm 更改一個機器字。

　　示例

　　顯示從 0xc000000 開始的 15 行記憶體：

　　[0]kdb＞ md 0xc000000 15

　　將記憶體位置為 0xc000000 上的內容更改為 0x10：

　　[0]kdb＞ mm 0xc000000 0x10

　　暫存器顯示和修改

　　這一類別中的命令有 rd、rm 和 ef。

　　rd 命令（不帶任何引數）顯示處理器暫存器的內容。它可以有選擇地帶三個引數。如果傳遞了 c 引數，則 rd 顯示處理器的控制暫存器；如果帶有 d 引數，那麼它就顯示除錯暫存器；如果帶有 u 引數，則顯示上一次進入核心的當前任務的暫存器組。

　　rm 命令修改暫存器的內容。它以暫存器名稱和 new-contents 作為引數，用 new-contents 修改暫存器。暫存器名稱與特定的體系結構有關。目前，不能修改控制暫存器。

　　ef 命令以一個地址作為引數，它顯示指定地址處的異常幀。

　　示例

　　顯示通用暫存器組：

　　[0]kdb＞ rd

　　將暫存器 ebx 的內容設定成 0x25：

　　[0]kdb＞ rm %ebx 0x25

　　斷點

　　常用的斷點命令有 bp、bc、bd、be 和 bl。

　　bp 命令以一個地址／符號作為引數，它在地址處應用斷點。當遇到該斷點時則停止執行並將控制權交予 KDB。該命令有幾個有用的變體。bpa 命令對 SMP 系統中的所有處理器應用斷點。bph 命令強制在支援硬體暫存器的系統上使用它。bpha 命令類似於 bpa 命令，差別在於它強制使用硬體暫存器。

　　bd 命令禁用特殊斷點。它接收斷點號作為引數。該命令不是從斷點表中除去斷點，而只是禁用它。斷點號從 0 開始，根據可用性順序分配給斷點。

　　be 命令啟用斷點。該命令的引數也是斷點號。

　　bl 命令列出當前的斷點集。它包含了啟用的和禁用的斷點。

　　bc 命令從斷點表中除去斷點。它以具體的斷點號或 * 作為引數，在後一種情況下它將除去所有斷點。

　　示例

　　對函式 sys_write() 設定斷點：

　　[0]kdb＞ bp sys_write

　　列出斷點表中的所有斷點：

　　[0]kdb＞ bl

　　清除斷點號 1：

　　[0]kdb＞ bc 1

　　堆疊跟蹤

　　主要的堆疊跟蹤命令有 bt、btp、btc 和 bta。

　　bt 命令設法提供有關當前執行緒的堆疊的資訊。它可以有選擇地將堆疊幀地址作為引數。如果沒有提供地址，那麼它採用當前暫存器來回溯堆疊。否則，它假定所提供的地址是有效的堆疊幀起始地址並設法進行回溯。如果核心編譯期間設定了 CONFIG_FRAME_POINTER 選項，那麼就用幀指標暫存器來維護堆疊，從而就可以正確地執行堆疊回溯。如果沒有設定 CONFIG_FRAME_POINTER，那麼 bt 命令可能會產生錯誤的結果。

　　btp 命令將程式標識作為引數，並對這個特定程式進行堆疊回溯。

　　btc 命令對每個活動 CPU 上正在執行的程式執行堆疊回溯。它從第一個活動 CPU 開始執行 bt，然後切換到下一個活動 CPU，以此類推。

　　bta 命令對處於某種特定狀態的所有程式執行回溯。若不帶任何引數，它就對所有程式執行回溯。可以有選擇地將各種引數傳遞給該命令。將根據引數處理處於特定狀態的程式。選項以及相應的狀態如下：

　　D：不可中斷狀態

　　R：正執行

　　S：可中斷休眠

　　T：已跟蹤或已停止

　　Z：僵死

　　U：不可執行

　　這類命令中的每一個都會列印出一大堆資訊。請查閱下面的參考資料以獲取這些欄位的詳細文件。

　　示例

　　跟蹤當前活動執行緒的堆疊：

　　[0]kdb＞ bt

　　跟蹤標識為 575 的程式的堆疊：

　　[0]kdb＞ btp 575

　　其它命令

　　下面是在核心除錯過程中非常有用的其它幾個 KDB 命令。

　　id 命令以一個地址／符號作為引數，它對從該地址開始的指令進行反彙編。環境變數 IDCOUNT 確定要顯示多少行輸出。

　　ss 命令單步執行指令然後將控制返回給 KDB。該指令的一個變體是 ssb，它執行從當前指令指標地址開始的指令（在螢幕上列印指令），直到它遇到將引起分支轉移的指令為止。分支轉移指令的典型示例有 call、return 和 jump。

　　go 命令讓系統繼續正常執行。一直執行到遇到斷點為止（如果已應用了一個斷點的話）。

　　reboot 命令立刻重新引導系統。它並沒有徹底關閉系統，因此結果是不可預測的。

　　ll 命令以地址、偏移量和另一個 KDB 命令作為引數。它對連結串列中的每個元素反覆執行作為引數的這個命令。所執行的命令以列表中當前元素的地址作為引數。

　　示例

　　反彙編從例程 schedule 開始的指令。所顯示的行數取決於環境變數 IDCOUNT：

　　[0]kdb＞ id schedule

　　執行指令直到它遇到分支轉移條件（在本例中為指令 jne）為止：

　　[0]kdb＞ ssb

　　0xc0105355 default_idle+0x25: cli

　　0xc0105356 default_idle+0x26: mov 0x14(%edx),%eax

　　0xc0105359 default_idle+0x29: test %eax, %eax

　　0xc010535b default_idle+0x2b: jne 0xc0105361 default_idle+0x31

　　技巧和訣竅

　　除錯一個問題涉及到：使用偵錯程式（或任何其它工具）找到問題的根源以及使用原始碼來跟蹤導致問題的根源。單單使用原始碼來確定問題是極其困難的，只有老練的核心駭客才有可能做得到。相反，大多數的新手往往要過多地依靠偵錯程式來修正錯誤。這種方法可能會產生不正確的問題解決方案。我們擔心的是這種方法只會修正表面症狀而不能解決真正的問題。此類錯誤的典型示例是新增錯誤處理程式碼以處理 NULL 指標或錯誤的引用，卻沒有查出無效引用的真正原因。

　　結合研究程式碼和使用除錯工具這兩種方法是識別和修正問題的最佳方案。

　　偵錯程式的主要用途是找到錯誤的位置、確認症狀（在某些情況下還有起因）、確定變數的值，以及確定程式是如何出現這種情況的（即，建立呼叫堆疊）。有經驗的駭客會知道對於某種特定的問題應使用哪一個偵錯程式，並且能迅速地根據除錯獲取必要的資訊，然後繼續分析程式碼以識別起因。

　　因此，這裡為您介紹了一些技巧，以便您能使用 KDB 快速地取得上述結果。當然，要記住，除錯的速度和精確度來自經驗、實踐和良好的系統知識（硬體和核心內部機理等）。

　　技巧 1

　　在 KDB 中，在提示處輸入地址將返回與之最為匹配的符號。這在堆疊分析以及確定全域性資料的地址／值和函式地址方面極其有用。同樣，輸入符號名則返回其虛擬地址。

　　示例

　　表明函式 sys_read 從地址 0xc013db4c 開始：

　　[0]kdb＞ 0xc013db4c

　　0xc013db4c = 0xc013db4c (sys_read)

　　同樣，表明 sys_write 位於地址 0xc013dcc8：

　　[0]kdb＞ sys_write

　　sys_write = 0xc013dcc8 (sys_write)

　　這些有助於在分析堆疊時找到全域性資料和函式地址。

　　技巧 2

　　在編譯帶 KDB 的核心時，只要 CONFIG_FRAME_POINTER 選項出現就使用該選項。為此，需要在配置核心時選擇“Kernel hacking”部分下面的“Compile the kernel with frame pointers”選項。這確保了幀指標暫存器將被用作幀指標，從而產生正確的回溯。實際上，您可以手工轉儲幀指標暫存器的內容並跟蹤整個堆疊。例如，在 i386 機器上，%ebp 暫存器可以用來回溯整個堆疊。

　　例如，在函式 rmqueue() 上執行第一個指令後，堆疊看上去類似於下面這樣：

　　[0]kdb＞ md %ebp

　　0xc74c9f38 c74c9f60 c0136c40 000001f0 00000000

　　0xc74c9f48 08053328 c0425238 c04253a8 00000000

　　0xc74c9f58 000001f0 00000246 c74c9f6c c0136a25

　　0xc74c9f68 c74c8000 c74c9f74 c0136d6d c74c9fbc

　　0xc74c9f78 c014fe45 c74c8000 00000000 08053328

　　[0]kdb＞ 0xc0136c40

　　0xc0136c40 = 0xc0136c40 (__alloc_pages +0x44)

　　[0]kdb＞ 0xc0136a25

　　0xc0136a25 = 0xc0136a25 (_alloc_pages +0x19)

　　[0]kdb＞ 0xc0136d6d

　　0xc0136d6d = 0xc0136d6d (__get_free_pages +0xd)

　　我們可以看到 rmqueue() 被 __alloc_pages 呼叫，後者接下來又被 _alloc_pages 呼叫，以此類推。

　　每一幀的第一個雙字（double word）指向下一幀，這後面緊跟著呼叫函式的地址。因此，跟蹤堆疊就變成一件輕鬆的工作了。

　　技巧 3

　　go 命令可以有選擇地以一個地址作為引數。如果您想在某個特定地址處繼續執行，則可以提供該地址作為引數。另一個辦法是使用 rm 命令修改指令指標暫存器，然後只要輸入 go。如果您想跳過似乎會引起問題的某個特定指令或一組指令，這就會很有用。但是，請注意，該指令使用不慎會造成嚴重的問題，系統可能會嚴重崩潰。

　　技巧 4

　　您可以利用一個名為 defcmd 的有用命令來定義自己的命令集。例如，每當遇到斷點時，您可能希望能同時檢查某個特殊變數、檢查某些暫存器的內容並轉儲堆疊。通常，您必須要輸入一系列命令，以便能同時執行所有這些工作。defcmd 允許您定義自己的命令，該命令可以包含一個或多個預定義的 KDB 命令。然後只需要用一個命令就可以完成所有這三項工作。其語法如下：

　　[0]kdb＞ defcmd name "usage" "help"

　　[0]kdb＞ [defcmd] type the commands here

　　[0]kdb＞ [defcmd] endefcmd

　　例如，可以定義一個（簡單的）新命令 hari，它顯示從地址 0xc000000 開始的一行記憶體、顯示暫存器的內容並轉儲堆疊：

　　[0]kdb＞ defcmd hari "" "no arguments needed"

　　[0]kdb＞ [defcmd] md 0xc000000 1

　　[0]kdb＞ [defcmd] rd

　　[0]kdb＞ [defcmd] md %ebp 1

　　[0]kdb＞ [defcmd] endefcmd

　　該命令的輸出會是：

　　[0]kdb＞ hari

　　[hari]kdb＞ md 0xc000000 1

　　0xc000000 00000001 f000e816 f000e2c3 f000e816

　　[hari]kdb＞ rd

　　eax = 0x00000000 ebx = 0xc0105330 ecx = 0xc0466000 edx = 0xc0466000

　　....

　　...

　　[hari]kdb＞ md %ebp 1

　　0xc0467fbc c0467fd0 c01053d2 00000002 000a0200

　　[0]kdb＞

　　技巧 5

　　可以使用 bph 和 bpha 命令（假如體系結構支援使用硬體暫存器）來應用讀寫斷點。這意味著每當從某個特定地址讀取資料或將資料寫入該地址時，我們都可以對此進行控制。當除錯資料／記憶體毀壞問題時這可能會極其方便，在這種情況中您可以用它來識別毀壞的程式碼／程式。

　　示例

　　每當將四個位元組寫入地址 0xc0204060 時就進入核心偵錯程式：

　　[0]kdb＞ bph 0xc0204060 dataw 4

　　在讀取從 0xc000000 開始的至少兩個位元組的資料時進入核心偵錯程式：

　　[0]kdb＞ bph 0xc000000 datar 2

　　結束語

　　對於執行核心除錯，KDB 是一個方便的且功能強大的工具。它提供了各種選項，並且使我們能夠分析記憶體內容和資料結構。最妙的是，它不需要用另一臺機器來執行除錯。

Linux 核心偵錯程式內幕(轉)

相關文章