資料中心儲存 TCO 模型

陶然陶然發表於2022-03-17

   概述

  總擁有成本 (TCO) 提供了一種透過計算與購買和執行 IT 裝置相關的所有成本來了解客戶如何做出購買決策的方法。不同客戶的業務目標和購買標準差異很大,因此,一刀切的總體擁有成本模型並不足以滿足所有儲存工作負載。我們透過檢查儲存的資本支出 (CapEx) 以及典型資料中心機架中通常主導 IT 預算的所有其他內容,以及由電源、冷卻和裝置故障成本主導的模型運營支出 (OpEx),定義了非常適合儲存的 TCO 模型。這對於對比專門面向持久儲存的產品和解決方案非常有用。

   總體擁有成本模型有哪些內容

  資料中心的總擁有成本分為資本支出 (CapEx) 和運營支出 (OpEx)。資本支出通常受資料中心內的限制,可能包括硬體採購(計算,網路和儲存)的價格,要管理的IT裝置,軟體和作業系統以及安裝費用。資料中心本身的資本支出(包括建築、房產、政府、稅收、其他費用)和業務增長因公司而異。當前的 TCO 模型將資料中心資本支出作為以“機櫃費用/年”(Rack Cost per Year)的一項固定支出。運營支出包括能耗、裝置折舊、維護、維修、IT 軟體許可和資料中心員工成本。

  有效容量(Effective capacity)被標記為 “TBe”(terabytes effective)。這是複製、容量利用率和資料縮減(壓縮、重複資料刪除等)後的實際可用儲存空間。由於原始儲存的整個資本支出成倍增加,這對總體擁有成本產生了巨大影響。企業儲存、全快閃記憶體陣列和其他公司在考慮儲存的成本/TB(cost / TB) 時,通常會公佈有效容量。

   總體擁有成本 TCO 指標

  在對儲存的總體擁有成本進行建模時,有許多指標可能很重要,包括總體系統級效能、耐用性和總容量。此模型主要關注 TCO $ / TBe / 機架 /月的 TCO。大型和小型資料中心都以此作為參考,以比較當前部署與未來部署,這些部署僅針對儲存持久儲存進行了最佳化。TCO 由每個 TBe 的資本支出組成,該資本支出採用所有 IT 硬體和機架的總成本,並將它們與儲存的總成本相加,並在有效容量總量中攤銷這些成本。運營支出由電源、冷卻和驅動器故障組成,並且在每個機架的有效容量範圍內攤銷類似。此模型不包括軟體許可成本,但如果需要,可以輕鬆將其新增到機架配置成本中的任何靜態欄位中。

   對機架配置進行建模

  模型中的機架輸入有兩列,分別表示一個 HDD 配置和一個 SSD 配置,以便進行有用的比較。每個 JBOD 的驅動器總數、每個伺服器的驅動器總數以及每個機架的 JBOD 和伺服器決定了每個機架的總容量,以 TB 或 PB 原始容量表示。此機架將機架中用於 TCO 計算的非儲存元件的總空間和總功率相加。由於資料中心機架具有各種功率、重量和空間配置,因此模型中不應用任意約束。對於該型號的標準使用者,可以假設標準機架具有42U的空間和大約12kW的功率。

   驅動器

  該模型分為硬碟驅動器 (HDD) 驅動器和固態驅動器 (SSD) 輸入。這些對應於每個設定的機架配置。驅動器的容量、活動和空閒功率規格(與佔空比一起用於估計總功耗)、年故障率(以 % 為單位)(型號驅動器故障和更換成本)以及以平均價格 (ASP) 為單位的成本(需要匹配)需要輸入。

   工作負載

  驅動器效能對TCO的影響

  SSD當然比HDD快得多,因此在嘗試實現特定的SLA或IOPS數量時,檢視應用程式效能驅動的TCO模型很可能會偏向於SSD。TCO 模型中可對輸出產生重大影響的工作負載輸入包括容量利用率因子、錯誤編碼因子、多工作負載複製因子和資料縮減技術。

  效能乘數(Performance multiplier)是 SSD 相對於 HDD 在效能或 QoS 方面的優勢,表示為達到特定 IOPS、QoS 或頻寬所需的 HDD 乘數,並且是表達裝置之間應用程式效能差異的更簡單方法。當更頻繁地訪問資料時,所需的 IOPS/TB 量會增加。複製架構(下面介紹)也可能影響效能,因此請注意不要雙倍下降,因為這是模型中的乘數。

  容量利用率(Capacity Utilization)是指在總可用容量中所用的總儲存裝置中所佔的百分比。通常,由於已滿時對效能的影響,驅動器會留下一些可用空間,並確保為傳入資料提供足夠的可用容量。

  錯誤編碼/複製(Error encoding / replication)考慮了複製和資料保護模式,如RAID或糾刪碼。例如,映象資料將產生係數 2,三重複制將產生 3。SSD通常比HDD具有優勢,因為它具有可靠性,重建效能和耐用性,可以降低開銷並具有相同或更好的資料永續性。包含一個參考選項卡,用於顯示 RAID 5、RAID 6 和糾刪碼的常見開銷。

  資料縮減率(Data Reduction Ratio)是按百分比的縮減率,是儲存的主機資料與所需物理儲存的比率。例如,50% 的比率相當於 2:1 的資料縮減比例。由於資料縮減允許使用者儲存比物理硬體上更多的資料,因此最終的有效容量會增加。壓縮、重複資料刪除等技術可以大大減少滿足"可用容量"要求所需的原始容量。與HDD相比,SSD在使用現代演算法進行壓縮方面具有優勢,並且由於效能更高(IOPS和頻寬)而減輕了負載。這在很大程度上取決於資料的效能和訪問頻率,以及壓縮發生的位置(超出此模型的範圍)。雖然壓縮率取決於演算法,而不是儲存裝置型別,但壓縮和解壓縮速度將受到磁碟訪問速度 (IOPS) 的限制。對於全快閃記憶體陣列的行業領導者來說,資料縮減是他們在定製軟體中的附加值,他們經常引用全快閃記憶體來實現高水平的DRR,同時提供高效能。

  另一個例子是VMware vSAN,其中壓縮和重複資料刪除僅在全快閃記憶體配置中提供。現代壓縮演算法,例如,來自Facebook的ZStandard,可以實現比HDD讀/寫快得多的壓縮和解壓縮速度,從而允許在SSD上實時使用演算法。它還為快閃記憶體提供了好處,透過字典檔案具有小檔案可壓縮性,可顯著提高資料庫壓縮效能。PCIe 加速器、FPGA、解除安裝和英特爾®快速輔助技術通常用於執行實時加密、壓縮和重複資料刪除,由於需要實時要求和高吞吐量,高效能 NVMe 固態盤具有巨大的優勢。

  佔空比(Duty Cycle)是驅動器在部署期間處於活動狀態的時間百分比。這僅用於有源和空閒功率假設。在頻繁訪問的熱儲存或溫儲存中,延遲很重要,裝置永遠不會降速或進入接近零的空閒電源狀態。在訪問頻率低得多的較冷或歸檔儲存中,可以使用較低的空閒電源設定。

   運營支出

  功耗(Power)是資料中心運營支出的最大驅動因素之一。電源也是機架設計和管理方式的主要制約因素。模型中電源的運營支出是透過對機架中 IT 裝置(伺服器、交換機、JBOD 等)的功耗和儲存的總功耗求和來計算的。儲存的功耗使用佔空比進行建模,該佔空比指示裝置處於空閒狀態與活動狀態的頻率,並估計部署期間消耗的總能量。計算總耗電量後,能耗(以千瓦時為單位)和成本將使用以美元/千瓦時為單位的固定常數計算,並計算資料中心 PUE。PUE被定義為資料中心總能耗與同一時期計算,測量或評估的資訊科技裝置能耗的比率。在效率較低的資料中心中,與PUE非常低且通常從可再生能源消耗大量能源的超大規模資料中心相比,通常使用較大的PUE。

  冷卻成本(Cooling costs)—— 典型的資料中心在冷卻成本上花費了大量的運營支出。該模型只是假設冷卻成本內建於IT裝置(風扇,液體冷卻等)中,而不是從資料中心級別檢視它。如果給定機架電源的冷卻成本是已知且固定的,則可以將其新增到機架部分中,以在給定的儲存容量上攤銷固定資料中心成本。

  部署大量儲存時,驅動器故障(Drive failures)是不可避免的。裝置製造商通常以MTBF(平均故障間隔時間)或AFR(年度故障率)列出其故障率。這些在數學上是相關的,用MTBF = 1 / AFR * 365 * 24表示。眾所周知,SSD的故障率低於HDD,因為它們沒有移動部件,並且不易受到機械磨損。SSD故障是眾所周知的,並且具有與HDD完全不同的故障機制。HDD故障通常超過供應商列出的故障,獨立研究表明,在過去7年的部署中,平均AFR為1.58%。在非理想條件下,在高溫、潮溼或超過硬碟額定工作負載(類似於固態硬碟的耐久性)時,硬碟故障接近 4% AFR。

  該模型計算來自機架輸入的驅動器總數,並找到我乘以部署項的驅動器小時數總數。然後,將其除以以小時為單位的 MTBF,以估計部署期限內的裝置故障數。提供固定的更換成本,以派遣技術人員維修故障裝置。假定企業級硬碟和固態硬碟享有 5 年保修,因此不承擔實際儲存的硬碟更換成本。

來自 “ Andy說IT ”, 原文作者:常華Andy;原文連結:http://server.it168.com/a2022/0317/6639/000006639070.shtml,如有侵權,請聯絡管理員刪除。

相關文章