offlineRL實戰(二):MOPO

從零開始,搭建以及運行offlineRL項目

一、硬件環境

model name : Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz

CPU MHz : 1600.004

cache size : 8192 KB

GPU: NVIDIA Corporation GP104 [GeForce GTX 1080] (rev a1)

二、系統安裝與配置

ubuntu18.04 + GPU 驅動 + cuda 10 + cudnn 7.4:

三、項目環境搭建/依賴配置

參考之前已經在虛擬機上實現的安裝配置流程:

在此再寫一遍的目的主要是為瞭記錄下新踩的那些坑:

  1. cuda 與 tensorflow_gpu 版本不對應問題:

2. mujocopy 安裝後,一直報錯,主要原因是,由於下載的是最新的mujoco_py版本,因此在set_up文件中已經將mujoco的版本設定為瞭最新的2.1.1,所以之前下載的200以及210版本均無法識別,因此下載最新的mujoco版本後,問題解決,mujoco_py實現瞭編譯:

3. D4RL的安裝問題,也是由於無法找到指定的.h文件,從而無法實現安裝,解決思路:一個一個包安裝,下載dm-control安裝後,再安裝d4rl:

4.依照項目說明,完成配置:

四、項目運行

運行命令:mopo run_local examples.development --config=examples.config.d4rl.halfcheetah_mixed --gpus=1 --trial-gpus=1

運行截圖:

eb35a76519f9be090afd78abcd341358

五、代碼結構解析

example: 具體應用的offlineRL例子 文件夾

mopo: 具體的算法設定文件夾

  • algorithms:MOPO進行執行的模型訓練以及評估main文件
  • env:環境設定
  • models:模型構建文件,其中fake_env.py為重點修改文件,也就是MOPO引入penalty進行處理判斷的文件
  • offpolicy:離線模型設定文件夾,用於執行off_policy:load replay pool data
  • parallel:沒看懂
  • static:靜態設定數據文件
  • utils:讀寫等基礎操作文件

ray_mopo:用於存儲結果的文件夾

softlearning:構建RL模型的工具包,Softlearning is a deep reinforcement learning toolbox for training maximum entropy policies in continuous domains.The implementation is fairly thin and primarily optimized for our own development purposes.It utilizes the tf.keras modules for most of the model classes(e.g.policies and value functions).We use Ray for the experiment orchestration.Ray Tune and Autoscaler implement several neat features that enable us to seamlessly run the same experiment scripts that we use for local prototyping to launch large-scale experiments on any chosen cloud service(e.g.GCP or AWS),and intelligently parallelize and distribute training for effective resource allocation.

六、後續

  1. 回看論文,找出所有的contribution對應的代碼位置,進行分析
  2. 提出新思路進行實驗!

发表回复

相关推荐

日本高中

众所周知,日本的教育教学质量在亚洲乃至世界处于领先地位。历年来,东京大学、京都大学、东京工业大学、大阪大学、东北大学 ...

· 51秒前

給大傢推薦一個動漫網站

找不到資源的時候可以品品迷子二次元~新番老番全都有~有問題可以和站長大大留言~

· 2分钟前

牛排“七分熟”說成"seven percent hot"?

去西餐吃過牛排的寶寶的知道,這個牛排是熟度。簡單的說,就是當下你下單時服務員就會問你要幾分熟?小編聽說去國外吃牛排是...

· 3分钟前

第13章 被打小屁股

我奶奶平时是一个特别好讲话的人,对我一直是温声细语,从来都没有过一句重话,更别说让我赔礼道歉这件事了。

· 5分钟前

電腦軟件閃退的常見原因和修復方法都有哪些

我們在使用電腦軟件的時候偶爾會遇到閃退的情況,造成不能正常使用,那麼電腦軟件閃退的常見原因和修復方法都有哪些呢?遇到...

· 7分钟前