資料中心冷卻的 safe-RL，基於對 action 的事後修正技術

MoonOut發表於2023-03-05

原文網址 : https://www.cnblogs.com/moonout/p/17180288.html

一個總述

關於本篇筆記：

論文題目：Toward Physics-Guided Safe Deep Reinforcement Learning for Green Data Center Cooling Control
- 線上看：https://ieeexplore.ieee.org/abstract/document/9797658
閱讀筆記是 ~~量子速讀法~~ 的產物，只能起輔助閱讀的功效，無法替代論文原文。

關於論文：

motivation：減少 RL 試錯過程中的 unsafe behavior。
基本思想：先 imitation learning，再在 on-line learning 時強行改可能 unsafe 的 action。
關鍵技術：1. 怎麼判斷 action 可能 unsafe，2. 怎麼改 action。
- 1 再訓一個 coarse model。
- 2 啟發式尋找最小的改動，直到 coarse model 判斷安全。
- 1 2 是結合在一起做的。
侷限性：把整個房間設為同一個溫度（使用 EnergyPlus 模擬）

摘要

聲稱自己提出的：safety-aware DRL framework，for single-hall data center cooling control。
技術路線：off-line imitation learning + online post-hoc rectification。
rectification：使用基於 historical safe operation traces 來 fit 的 thermal state transition model，還能外推 unsafe state。

1 intro

Post-hoc rectification：去修正 DRL 提供的 action，來保證 won't drive the system to the unsafe region，採用最小的修正（rectification）。
Safari（offline 模仿學習 + online 修正）的優勢：擬合狀態轉換模型時的低開銷和對資料的低需求（即只需要安全資料）。

simplex 單純形：進入到 unsafe region，再回退；post-hoc rec：主動修改 action 使其安全。

3 preliminaries

用 EnergyPlus 模擬，假設整個房間的溫度是一樣的（uniform distribution）。
設定點（action）好像是 mass flow rate 和 T_in。

4 performance of reward shaping

本章內容：MDP setting 和 RL（DDPG）。

state：

T_z 室內溫度, T_in 空調溫度, P_c ACU 功率, P_IT 負載, T_o 戶外溫度。
假設 P_IT 和 T_o 都是 Markovian（？）

reward：

1 goal 項：exp(ΔT²) 懲罰的超溫 - P_DC（總功率 = P_IT + P_c）。
2 shaping 項：用於控制 T_z 在 T_L T_U 之間，兩個 max(0, ΔT_{過高/過低} ) 相加。

（迄今為止我都不知道 ACU P_c 是怎麼算的）

5 the safari approach

5.1 CMDP Formulation & Approach Overview

如 subsection 標題。定義了 constrained MDP 的問題。

5.2 off-line IL

發現模仿學習可以讓前三天不犯錯，但後面 RL 繼續試錯還是會犯錯的。

5.3 Online Post-hoc Rectification

用以前的資料再 train 一個 coarse model：灰盒或黑盒。

LSTM：MAE 在 0.5℃。需要 unsafe 資料（exploratory data）。
safari1：
- 關於 KKT 條件：https://zhuanlan.zhihu.com/p/556832103

- 好像就是解了一個 KKT 條件。讓數學形式如此簡單的關鍵，是它的 DC 狀態方程簡單。

safari2： heuristic 方法。
- For T_in(t) and f(t), we adopt their setpoints as their approximations. 又幹了這種直接拿 setpoint 當真實值的事情。
- 然後直接把 Eq.(1) 積分了！
- 然後，為了減少拿 setpoint 近似 flow rate 和溫度的影響，用這段時間的 T_z 的積分作為最終的 T_z 值。
safari3：
- 搞了一個所有 IT power trace 的上包絡線( maximum ramp-up function)。
- 然後直接用這個作為輸入 Q，重新 forward DRL 模型。

比較：

LSTM using unsafe data 的效能最好，其次是 transient 的 safari2。

6 performance evaluation

沒有什麼要說的。

科技巨頭資料中心冷卻揭秘：谷歌有AI 微軟玩潛水
2018-08-20
谷歌AI微軟
Omdia：預測 2028 年資料中心冷卻市場規模將達 168.7 億美元
2024-07-03
基於python爬蟲技術對於淘寶的資料分析的設計與實現
2023-05-11
Python爬蟲
基於PhantomJs的Java後臺網頁截圖技術
2019-01-29
JSJava網頁
基於 HTML5 和 VR 技術的 3D 機房資料中心視覺化
2020-04-06
HTMLVR3D視覺化
【技術面對面】基於場景圖的多物體影像生成技術
2021-03-29
№20190117：因子加值數的修正賽事
2019-01-17
浪潮自研SSD：基於SR-IOV技術，助力雲資料中心降本增效
2022-11-30
阿里巴巴：對外開源自研液冷資料中心技術
2020-02-14
阿里
基於圖資料庫的後設資料血緣關係分析技術研究與實踐
2022-12-26
資料庫
四問四答關於託管資料中心的那些事兒
2021-08-17
基於雜湊的影象檢索技術
2018-07-05
基於WebGL/Threejs技術的模型剖切
2018-06-27
WebJS模型
Android中基於HTTP的網路技術
2020-03-18
AndroidHTTP
基於OPENCV的手勢識別技術
2020-12-11
OpenCV
基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP
2024-05-31
框架
學術派 | 基於AI的影片精彩度分析技術
2020-07-15
AI
奇點雲資料中臺技術匯（七） | 資料智慧模型——資料中臺航母的作戰叢集
2019-08-01
模型
峰會預告 | 基於雲資料的司法取證技術
2019-07-18
騰訊基於全時態資料庫技術的資料閃回
2018-11-19
資料庫
對資料中臺的梳理與思考
2023-01-31
Action Recognition——基於表示的動作識別綜述
2018-12-12
基於 SmartX 分散式儲存的 RDMA 與 TCP/IP 技術與效能對比
2023-02-08
分散式TCP
關於 SAP Enterprise Portal 的前後端技術棧
2023-03-30
後端
基於HTTP協議的幾種實時資料獲取技術
2018-07-08
HTTP協議
基於文心一言的生成式資料分析技術探索
2024-04-15
MySQL基於事務的Replcaiton
2020-10-05
MySqlAI
基於雲技術的域名解析系統研究：傳統解析技術的侷限性
2023-12-27
技術番外篇丨Github Action CI/CD
2021-10-15
Github
基於Kubernetes 構建.NET Core 的技術體系
2019-04-05
基於人工智慧的微表情識別技術
2019-04-04
人工智慧
技術文件：基於 Python 的影像處理系統
2024-07-26
Python
基於 vue.js 的 SSR 技術 — Nuxt.js
2022-05-25
Vue.jsUX
技術乾貨 | 基於MindSpore更好的理解Focal Loss
2021-05-24
邊緣資料中心需求和核心技術分析
2022-04-14
微信後團隊分享：微信後臺基於Ray的分散式AI計算技術實踐
2024-11-07
分散式AI
數棧技術分享：到底什麼是資料中臺？終於有人說清楚了!
2021-05-13
2019 SDC 議題回顧 | 基於雲資料的司法取證技術
2019-07-24