資料中心冷卻的 safe-RL,基於對 action 的事後修正技術

MoonOut發表於2023-03-05

一個總述

關於本篇筆記:

關於論文:

  • motivation:減少 RL 試錯過程中的 unsafe behavior。
  • 基本思想:先 imitation learning,再在 on-line learning 時強行改可能 unsafe 的 action。
  • 關鍵技術:1. 怎麼判斷 action 可能 unsafe,2. 怎麼改 action。
    • 1 再訓一個 coarse model。
    • 2 啟發式尋找最小的改動,直到 coarse model 判斷安全。
    • 1 2 是結合在一起做的。
  • 侷限性:把整個房間設為同一個溫度(使用 EnergyPlus 模擬)

摘要

  • 聲稱自己提出的:safety-aware DRL framework,for single-hall data center cooling control。
  • 技術路線:off-line imitation learning + online post-hoc rectification。
  • rectification: 使用 基於 historical safe operation traces 來 fit 的 thermal state transition model,還能外推 unsafe state。

1 intro

  • Post-hoc rectification:去修正 DRL 提供的 action,來保證 won't drive the system to the unsafe region,採用最小的修正(rectification)。
  • Safari(offline 模仿學習 + online 修正)的優勢:擬合狀態轉換模型時的低開銷和對資料的低需求(即只需要安全資料)。

simplex 單純形:進入到 unsafe region,再回退;post-hoc rec:主動修改 action 使其安全。

3 preliminaries

  • 用 EnergyPlus 模擬,假設整個房間的溫度是一樣的(uniform distribution)。
  • 設定點(action)好像是 mass flow rate 和 T_in。

4 performance of reward shaping

本章內容:MDP setting 和 RL(DDPG)。

state:

  • T_z 室內溫度, T_in 空調溫度, P_c ACU 功率, P_IT 負載, T_o 戶外溫度。
  • 假設 P_IT 和 T_o 都是 Markovian(?)

reward:

  • 1 goal 項:exp(ΔT²) 懲罰的超溫 - P_DC(總功率 = P_IT + P_c)。
  • 2 shaping 項:用於控制 T_z 在 T_L T_U 之間,兩個 max(0, ΔT_{過高/過低} ) 相加。

(迄今為止我都不知道 ACU P_c 是怎麼算的)

5 the safari approach

5.1 CMDP Formulation & Approach Overview

如 subsection 標題。定義了 constrained MDP 的問題。

5.2 off-line IL

發現模仿學習可以讓前三天不犯錯,但後面 RL 繼續試錯還是會犯錯的。

5.3 Online Post-hoc Rectification

用以前的資料再 train 一個 coarse model:灰盒或黑盒。

img

- 好像就是解了一個 KKT 條件。讓數學形式如此簡單的關鍵,是它的 DC 狀態方程簡單。
  • safari2: heuristic 方法。
    • For T_in(t) and f(t), we adopt their setpoints as their approximations. 又幹了這種直接拿 setpoint 當真實值的事情。
    • 然後直接把 Eq.(1) 積分了!
    • 然後,為了減少拿 setpoint 近似 flow rate 和 溫度的影響,用這段時間的 T_z 的積分作為最終的 T_z 值。
  • safari3:
    • 搞了一個所有 IT power trace 的上包絡線( maximum ramp-up function)。
    • 然後直接用這個作為輸入 Q,重新 forward DRL 模型。

比較:

  • LSTM using unsafe data 的效能最好,其次是 transient 的 safari2。

6 performance evaluation

沒有什麼要說的。

相關文章