把平均成功率從 50% 拉到了 100%。
論文標題:Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning
論文地址:https://hil-serl.github.io/static/hil-serl-paper.pdf
專案地址:https://hil-serl.github.io/
策略導致機器人處於不可恢復或不良狀態時;
當機器人陷入區域性最優狀態時 —— 如果沒有人工幫助,就可能需要大量時間才能克服。