磁碟IO過高時的處理辦法

studywell發表於2018-11-03

轉:

http://www.cnblogs.com/wjoyxt/p/4808024.html


磁碟IO過高時的處理辦法


針對系統中磁碟IO負載過高的指導性操作

主要命令: echo deadline > /sys/block/sda/queue/scheduler

注:以下的內容僅是提供參考, 如果磁碟IO確實比較大的話,是資料庫,可以進行讀寫分離或者分庫操作,減小磁碟壓力,檔案的話,可以利用raid來減輕壓力

 

一)I/O排程程式的總結:

1)當向裝置寫入資料塊或是從裝置讀出資料塊時,請求都被安置在一個佇列中等待完成.
2)每個塊裝置都有它自己的佇列.
3)I/O排程程式負責維護這些佇列的順序,以更有效地利用介質.I/O排程程式將無序的I/O操作變為有序的I/O操作.
4)核心必須首先確定佇列中一共有多少個請求,然後才開始進行排程.

 

二)I/O排程的4種演算法

1)CFQ(完全公平排隊I/O排程程式)

特點:
在最新的核心版本和發行版中,都選擇CFQ做為預設的I/O排程器,對於通用的伺服器也是最好的選擇.
CFQ試圖均勻地分佈對I/O頻寬的訪問,避免程式被餓死並實現較低的延遲,是deadline和as排程器的折中.
CFQ對於多媒體應用(video,audio)和桌面系統是最好的選擇.
CFQ賦予I/O請求一個優先順序,而I/O優先順序請求獨立於程式優先順序,高優先順序的程式的讀寫不能自動地繼承高的I/O優先順序.


工作原理:
CFQ為每個程式/執行緒,單獨建立一個佇列來管理該程式所產生的請求,也就是說每個程式一個佇列,各佇列之間的排程使用時間片來排程,
以此來保證每個程式都能被很好的分配到I/O頻寬.I/O排程器每次執行一個程式的4次請求.


2)NOOP(電梯式排程程式)---- 適用於SSD固態硬碟。

在新興的固態硬碟比如SSD、Fusion IO上,最簡單的NOOP反而可能是最好的演算法,因為其他三個演算法的最佳化是基於縮短尋道時間的,而固態硬碟沒有所謂的尋道時間且IO響應時間非常短。

特點:
在Linux2.4或更早的版本的排程程式,那時只有這一種I/O排程演算法.
NOOP實現了一個簡單的FIFO佇列,它像電梯的工作主法一樣對I/O請求進行組織,當有一個新的請求到來時,它將請求合併到最近的請求之後,以此來保證請求同一介質.
NOOP傾向餓死讀而利於寫.
NOOP對於快閃記憶體裝置,RAM,嵌入式系統是最好的選擇.

電梯演算法餓死讀請求的解釋:
因為寫請求比讀請求更容易.
寫請求透過檔案系統cache,不需要等一次寫完成,就可以開始下一次寫操作,寫請求透過合併,堆積到I/O佇列中.
讀請求需要等到它前面所有的讀操作完成,才能進行下一次讀操作.在讀操作之間有幾毫秒時間,而寫請求在這之間就到來,餓死了後面的讀請求.

 

3)Deadline(截止時間排程程式)

特點:
透過時間以及硬碟區域進行分類,這個分類和合並要求類似於noop的排程程式.
Deadline確保了在一個截止時間內服務請求,這個截止時間是可調整的,而預設讀期限短於寫期限.這樣就防止了寫操作因為不能被讀取而餓死的現象.
Deadline對資料庫環境(ORACLE RAC,MYSQL等)是最好的選擇.


4)AS(預料I/O排程程式)

特點:
本質上與Deadline一樣,但在最後一次讀操作後,要等待6ms,才能繼續進行對其它I/O請求進行排程.
可以從應用程式中預訂一個新的讀請求,改進讀操作的執行,但以一些寫操作為代價.
它會在每個6ms中插入新的I/O操作,而會將一些小寫入流合併成一個大寫入流,用寫入延時換取最大的寫入吞吐量.
AS適合於寫入較多的環境,比如檔案伺服器
AS對資料庫環境表現很差.

 

三)I/O排程方法的檢視與設定

1)檢視當前系統的I/O排程方法:

[root@test1 tmp]#  cat /sys/block/ sda /queue/scheduler 
noop anticipatory deadline  [cfq]

2)臨地更改I/O排程方法:
例如:想更改到noop電梯排程演算法:
echo deadline > /sys/block/ sda /queue/scheduler

3)想永久的更改I/O排程方法: 如下
修改核心引導引數,加入elevator=排程程式名


[root@test1 tmp]#  vi /boot/grub/menu.lst
更改到如下內容:
kernel /boot/vmlinuz-2.6.18-8.el5 ro root=LABEL=/  elevator=deadline  rhgb quiet

重啟之後,檢視排程方法:
[root@test1 ~]# cat /sys/block/sda/queue/scheduler 
noop anticipatory  [deadline]  cfq 
已經是deadline了


四)I/O排程程式的測試

本次測試分為只讀,只寫,讀寫同時進行.
分別對單個檔案600MB,每次讀寫2M,共讀寫300次.

1)測試磁碟讀:
[root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
[root@test1 tmp]#  time dd if=/dev/sda1 f=/dev/null bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 6.81189 seconds, 92.4 MB/s

real    0m6.833s
user    0m0.001s
sys     0m4.556s
[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 6.61902 seconds, 95.1 MB/s

real    0m6.645s
user    0m0.002s
sys     0m4.540s
[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 8.00389 seconds, 78.6 MB/s

real    0m8.021s
user    0m0.002s
sys     0m4.586s
[root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/sda1 f=/dev/null bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 29.8 seconds, 21.1 MB/s

real    0m29.826s
user    0m0.002s
sys     0m28.606s
結果:
第一 noop:用了6.61902秒,速度為95.1MB/s
第二 deadline:用了6.81189秒,速度為92.4MB/s
第三 anticipatory:用了8.00389秒,速度為78.6MB/s
第四 cfq:用了29.8秒,速度為21.1MB/s


2)測試寫磁碟:
[root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
[root@test1 tmp]#  time dd if=/dev/zero f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 6.93058 seconds, 90.8 MB/s

real    0m7.002s
user    0m0.001s
sys     0m3.525s
[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 6.79441 seconds, 92.6 MB/s

real    0m6.964s
user    0m0.003s
sys     0m3.489s
[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 9.49418 seconds, 66.3 MB/s

real    0m9.855s
user    0m0.002s
sys     0m4.075s
[root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# time dd if=/dev/zero f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 6.84128 seconds, 92.0 MB/s

real    0m6.937s
user    0m0.002s
sys     0m3.447s

測試結果:
第一 anticipatory,用了6.79441秒,速度為92.6MB/s
第二 deadline,用了6.84128秒,速度為92.0MB/s
第三 cfq,用了6.93058秒,速度為90.8MB/s
第四 noop,用了9.49418秒,速度為66.3MB/s


3)測試同時讀/寫

[root@test1 tmp]# echo deadline > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 15.1331 seconds, 41.6 MB/s
[root@test1 tmp]# echo cfq > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 36.9544 seconds, 17.0 MB/s
[root@test1 tmp]# echo anticipatory > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 23.3617 seconds, 26.9 MB/s
[root@test1 tmp]# echo noop > /sys/block/sda/queue/scheduler 
[root@test1 tmp]# dd if=/dev/sda1 f=/tmp/test bs=2M count=300
300+0 records in
300+0 records out
629145600 bytes (629 MB) copied, 17.508 seconds, 35.9 MB/s

測試結果:
第一 deadline,用了15.1331秒,速度為41.6MB/s
第二 noop,用了17.508秒,速度為35.9MB/s
第三 anticipatory,用了23.3617秒,速度為26.9MS/s
第四 cfq,用了36.9544秒,速度為17.0MB/s

 

五)ionice

ionice可以更改任務的型別和優先順序,不過只有cfq排程程式可以用ionice.
有三個例子說明ionice的功能:
採用cfq的實時排程,優先順序為7
ionice -c1 -n7  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&
採用預設的磁碟I/O排程,優先順序為3
ionice -c2 -n3  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&
採用空閒的磁碟排程,優先順序為0
ionice -c3 -n0  -ptime dd if=/dev/sda1 f=/tmp/test bs=2M count=300&

ionice的三種排程方法,實時排程最高,其次是預設的I/O排程,最後是空閒的磁碟排程.
ionice的磁碟排程優先順序有8種,最高是0,最低是7.

注意,磁碟排程的優先順序與程式nice的優先順序沒有關係。 一個是針對程式I/O的優先順序,一個是針對程式CPU的優先順序。

 

總結:

1、CFQ和DEADLINE考慮的焦點在於滿足零散IO請求上。對於連續的IO請求,比如順序讀,並沒有做最佳化。為了滿足隨機IO和順序IO混合的場景,Linux還支援ANTICIPATORY排程演算法。ANTICIPATORY的在DEADLINE的基礎上,為每個讀IO都設定了6ms的等待時間視窗。如果在這6ms內OS收到了相鄰位置的讀IO請求,就可以立即滿足。

 

IO排程器演算法的選擇,既取決於硬體特徵,也取決於應用場景。

 

在傳統的SAS盤上,CFQ、DEADLINE、ANTICIPATORY都是不錯的選擇; 對於專屬的資料庫伺服器,DEADLINE的吞吐量和響應時間都表現良好

 

然而 在新興的固態硬碟比如SSD、Fusion IO上,最簡單的NOOP反而可能是最好的演算法,因為其他三個演算法的最佳化是基於縮短尋道時間的,而固態硬碟沒有所謂的尋道時間且IO響應時間非常短。

 

2、對於資料庫應用, Anticipatory Scheduler 的表現是最差的。Deadline 在 DSS 環境表現比 cfq 更好一點,而  cfq 綜合來看錶現更好一些 。這也難怪 RHEL預設的 IO 排程器設定為 cfq

 



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29519108/viewspace-2218623/,如需轉載,請註明出處,否則將追究法律責任。

相關文章