比D-REX更好的逆強化學習算法:自監督的獎勵函數回歸SSRR

前言:

D-REX是發表於CoRL2019的逆強化學習論文,它通過對智能體與環境交互的過程中產生的狀態-動作對添加不同等級(強度)的噪聲來學習獎勵函數。但這種方法在損失函數上具有一定的錯誤性,為此我們介紹另一種逆強化學習算法,自監督的獎勵函數回歸(SSRR)。

D-REX 簡介

逆強化學習是指通過在專傢數據當中學習獎勵函數,來解決一般的強化學習環境中獎勵難以定義或者完全不存在現成的獎勵的問題,從而得到更好的強化學習策略。D-REX是發表於CoRL2019的逆強化學習論文,它通過對智能體與環境交互的過程中產生的狀態-動作對添加不同等級(強度)的噪聲來學習獎勵函數,其過程如下圖所示:

給定一條完整的狀態-動作對軌跡,我們先使用行為克隆(Behavior Cloning,BC)來估計這條軌跡的策略,然後通過不斷給這個策略添加噪聲,我們可以生成一系列軌跡,並自動地分析得到一個不同軌跡的偏好排名(如上圖是(a) > (b) > (c))。使用這個排名,我們可以學習一個獎勵函數並通過任意一個強化學習算法來優化這個函數得到一個新的比專傢更好的策略(e)。

在D-REX的學習方式設計中,采用瞭發表於ICML 2019的論文T-REX的方式,利用不同的噪聲等級作為監督信號,使用Luce-Shephard choice rule作為損失函數:

D-REX算法的流程如下:首先利用專傢數據采用行為克隆算法得到初始策略,然後生成K條不同等級噪聲的策略,並根據噪聲等級標上標簽。之後,利用這些數據運行T-REX算法得到獎勵函數,最後使用任何一個強化學習算法學習一個新的策略。其算法流程如下所示:

D-REX的問題

上述的算法是可行的,在作者的實驗中也有一定效果,但仍存在一定問題。SSRR這篇論文(詳細介紹見下文)指出瞭這種損失函數的錯誤性,即使添加的噪聲的等級不同,也有可能會產生相同的獎勵函數。

在上圖的例子中解釋瞭,在K=3時, 第二條軌跡的獎勵函數與噪聲無關,這顯然是不合理的。

SSRR簡介

為瞭解決D-REX裡的這個問題,我們介紹一篇發表於CoRL 2021的逆強化學習文章《Learning from suboptimal demonstration via self-supervised reward regression》(SSRR)。

文章首先檢驗瞭在策略中添加的噪聲與性能的關系,通過下圖的在Atari和Mujoco中的實驗發現,噪聲與性能的關系可以通過一個四參數的sigmoid函數來表征,如下式所示:

308cd2d071112877aba4af5ea36cb2b3

文章還證明瞭,使用這一sigmoid方法擬合到的真實獎勵與學習獎勵函數之間的R2值, 比起D-REX的做法,基於sigmoid的方法R2值會更高。

因此,文章設計瞭一個新的算法來更好地擬合獎勵函數。具體來說,算法流程分為3個部分:

8e1c7bf6ea5a78625f7b4ed0d5b2c705

第一部分:自監督的數據生成。給定一組狀態-動作對,運行一個逆強化學習算法(或者行為克隆)得到一個初始策略和獎勵函數,然後添加不同等級的噪聲,形成帶有噪聲的軌跡。

第二部分:噪聲軌跡獎勵函數擬合。將軌跡上每一點的獎勵函數相加,得到一個完整的軌跡獎勵。

第三部分:獎勵函數和策略學習。首先利用第二部分的軌跡獎勵回歸獎勵函數,然後使用強化學習算法學習該獎勵函數,得到一個新的策略。損失函數采用MSE形式,如下式所示:

cada304874f33adf591a687a70b0a320

實驗

論文與D-REX和BC在MuJoCo的三個環境上做瞭對比,如下表所示:

表格所示的數值是與真值的相關系數,可以看到,文章提出的方法可以很好地逼近真實的獎勵函數。

同時作者也在真實的機器手臂環境上設計瞭實驗。

可以看到,作者提出的方法在收斂速率和最終的表現結果上都優於基線算法。

參考文獻

[1]Chen L, Paleja R, Gombolay M. Learning from suboptimal demonstration via self-supervised reward regression[J]. arXiv preprint arXiv:2010.11723, 2020.

[2] Brown D S, Goo W, Niekum S. Better-than-demonstrator imitation learning via automatically-ranked demonstrations[C]//Conference on robot learning. PMLR, 2020: 330-359.

[3] Brown D, Goo W, Nagarajan P, et al. Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations[C]//International conference on machine learning. PMLR, 2019: 783-792.

发表回复

相关推荐

AUTOCAD——門的兩種畫法

今天這個文檔來說一下CAD中門的兩種繪制過程。操作工具操作系統:Windows10AutoCAD版本:2020畫法一:這個方法是常規的畫法步...

· 2秒前

吉利控股集团2024届全球校园招聘

投递链接:http://hturl.cc/n66y8 来源:海投网 吉利控股集团2024届全球校园招聘简章 l 全球汽车品牌组合价值排名前十中唯一 ...

· 12秒前

永遠不要嘲笑“站著的人”

這個2月社會上發生的事情太多太多,以至於每次想寫點什麼,又都無法沉下心來寫完。最近看的電影也不多,終日沉浸在慵懶的遊戲...

· 21秒前

盘点各国传出灵异事件的百年古堡,大马Kellie's Castle也是其一,传说有人在晚上看到堡主的灵魂!

前几年的一部电影《达芬奇密码》让神秘的古堡旅游热了起来。古堡让你的印象是什么呢?阴森?有恐怖传说?好像哈利波特故事里 ...

· 31秒前

后燕开国皇帝的嫡长子慕容令为何惨死异乡?

后燕开国皇帝的嫡长子慕容令为何惨死异乡?

· 42秒前