目錄
一個總述
關於本篇筆記:
- 論文題目:Toward Physics-Guided Safe Deep Reinforcement Learning for Green Data Center Cooling Control
- 閱讀筆記是
量子速讀法的產物,只能起輔助閱讀的功效,無法替代論文原文。
關於論文:
- motivation:減少 RL 試錯過程中的 unsafe behavior。
- 基本思想:先 imitation learning,再在 on-line learning 時強行改可能 unsafe 的 action。
- 關鍵技術:1. 怎麼判斷 action 可能 unsafe,2. 怎麼改 action。
- 1 再訓一個 coarse model。
- 2 啟發式尋找最小的改動,直到 coarse model 判斷安全。
- 1 2 是結合在一起做的。
- 侷限性:把整個房間設為同一個溫度(使用 EnergyPlus 模擬)
摘要
- 聲稱自己提出的:safety-aware DRL framework,for single-hall data center cooling control。
- 技術路線:off-line imitation learning + online post-hoc rectification。
- rectification: 使用 基於 historical safe operation traces 來 fit 的 thermal state transition model,還能外推 unsafe state。
1 intro
- Post-hoc rectification:去修正 DRL 提供的 action,來保證 won't drive the system to the unsafe region,採用最小的修正(rectification)。
- Safari(offline 模仿學習 + online 修正)的優勢:擬合狀態轉換模型時的低開銷和對資料的低需求(即只需要安全資料)。
2 related work
simplex 單純形:進入到 unsafe region,再回退;post-hoc rec:主動修改 action 使其安全。
3 preliminaries
- 用 EnergyPlus 模擬,假設整個房間的溫度是一樣的(uniform distribution)。
- 設定點(action)好像是 mass flow rate 和 T_in。
4 performance of reward shaping
本章內容:MDP setting 和 RL(DDPG)。
state:
- T_z 室內溫度, T_in 空調溫度, P_c ACU 功率, P_IT 負載, T_o 戶外溫度。
- 假設 P_IT 和 T_o 都是 Markovian(?)
reward:
- 1 goal 項:exp(ΔT²) 懲罰的超溫 - P_DC(總功率 = P_IT + P_c)。
- 2 shaping 項:用於控制 T_z 在 T_L T_U 之間,兩個 max(0, ΔT_{過高/過低} ) 相加。
(迄今為止我都不知道 ACU P_c 是怎麼算的)
5 the safari approach
5.1 CMDP Formulation & Approach Overview
如 subsection 標題。定義了 constrained MDP 的問題。
5.2 off-line IL
發現模仿學習可以讓前三天不犯錯,但後面 RL 繼續試錯還是會犯錯的。
5.3 Online Post-hoc Rectification
用以前的資料再 train 一個 coarse model:灰盒或黑盒。
- LSTM:MAE 在 0.5℃。需要 unsafe 資料(exploratory data)。
- safari1:
- 關於 KKT 條件:https://zhuanlan.zhihu.com/p/556832103
- 好像就是解了一個 KKT 條件。讓數學形式如此簡單的關鍵,是它的 DC 狀態方程簡單。
- safari2: heuristic 方法。
- For T_in(t) and f(t), we adopt their setpoints as their approximations. 又幹了這種直接拿 setpoint 當真實值的事情。
- 然後直接把 Eq.(1) 積分了!
- 然後,為了減少拿 setpoint 近似 flow rate 和 溫度的影響,用這段時間的 T_z 的積分作為最終的 T_z 值。
- safari3:
- 搞了一個所有 IT power trace 的上包絡線( maximum ramp-up function)。
- 然後直接用這個作為輸入 Q,重新 forward DRL 模型。
比較:
- LSTM using unsafe data 的效能最好,其次是 transient 的 safari2。
6 performance evaluation
沒有什麼要說的。