offlineRL實戰（二）：MOPO

xiaolong www.icpchaxun.com (5) 7天前

從零開始，搭建以及運行offlineRL項目

一、硬件環境

model name : Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz

CPU MHz : 1600.004

cache size : 8192 KB

GPU: NVIDIA Corporation GP104 [GeForce GTX 1080] (rev a1)

二、系統安裝與配置

ubuntu18.04 + GPU 驅動 + cuda 10 + cudnn 7.4:

三、項目環境搭建/依賴配置

參考之前已經在虛擬機上實現的安裝配置流程：

在此再寫一遍的目的主要是為瞭記錄下新踩的那些坑：

cuda 與 tensorflow_gpu 版本不對應問題：

2. mujocopy 安裝後，一直報錯，主要原因是，由於下載的是最新的mujoco_py版本，因此在set_up文件中已經將mujoco的版本設定為瞭最新的2.1.1，所以之前下載的200以及210版本均無法識別，因此下載最新的mujoco版本後，問題解決，mujoco_py實現瞭編譯：

3. D4RL的安裝問題，也是由於無法找到指定的.h文件，從而無法實現安裝，解決思路：一個一個包安裝，下載dm-control安裝後，再安裝d4rl:

4.依照項目說明，完成配置：

四、項目運行

運行命令：mopo run_local examples.development --config=examples.config.d4rl.halfcheetah_mixed --gpus=1 --trial-gpus=1

運行截圖：

eb35a76519f9be090afd78abcd341358

五、代碼結構解析

example: 具體應用的offlineRL例子文件夾

mopo: 具體的算法設定文件夾

algorithms:MOPO進行執行的模型訓練以及評估main文件
env:環境設定
models:模型構建文件，其中fake_env.py為重點修改文件，也就是MOPO引入penalty進行處理判斷的文件
offpolicy:離線模型設定文件夾，用於執行off_policy：load replay pool data
parallel:沒看懂
static:靜態設定數據文件
utils:讀寫等基礎操作文件

ray_mopo:用於存儲結果的文件夾

softlearning:構建RL模型的工具包，Softlearning is a deep reinforcement learning toolbox for training maximum entropy policies in continuous domains.The implementation is fairly thin and primarily optimized for our own development purposes.It utilizes the tf.keras modules for most of the model classes(e.g.policies and value functions).We use Ray for the experiment orchestration.Ray Tune and Autoscaler implement several neat features that enable us to seamlessly run the same experiment scripts that we use for local prototyping to launch large-scale experiments on any chosen cloud service(e.g.GCP or AWS),and intelligently parallelize and distribute training for effective resource allocation.

六、後續

回看論文，找出所有的contribution對應的代碼位置，進行分析
提出新思路進行實驗！

简述“四全”媒体的内涵。

糊壁为幸——读吴承学《明代八股文》

发表回复取消回复

请先登录账户再评论哦

offlineRL實戰（二）：MOPO

從零開始，搭建以及運行offlineRL項目

一、硬件環境

二、系統安裝與配置

三、項目環境搭建/依賴配置

四、項目運行

五、代碼結構解析

六、後續

发表回复取消回复

相关推荐

日本高中

給大傢推薦一個動漫網站

牛排“七分熟”說成"seven percent hot"？

第１３章被打小屁股

電腦軟件閃退的常見原因和修復方法都有哪些

offlineRL實戰（二）：MOPO

從零開始，搭建以及運行offlineRL項目

一、硬件環境

二、系統安裝與配置

三、項目環境搭建/依賴配置

四、項目運行

五、代碼結構解析

六、後續

发表回复 取消回复

相关推荐

日本高中

給大傢推薦一個動漫網站

牛排“七分熟”說成"seven percent hot"？

第１３章 被打小屁股

電腦軟件閃退的常見原因和修復方法都有哪些

发表回复取消回复

第１３章被打小屁股