Creating a Future Where Humans and Robots Coexist.

ブログ学習強化学習

強化学習ライブラリと対応アルゴリズムのリスト

2023年1月13日

以下は、各種強化学習ライブラリと、対応している強化学習アルゴリズムのリストです。

※一部、可視化ツールや要素技術など、強化学習アルゴリズムではないものも含みますがご了承ください。

ライブラリ

tensorforce

github: https://github.com/tensorforce/tensorforce

documentation: http://tensorforce.readthedocs.io/

paper: http://arxiv.org/abs/1808.07903

keras-rl

github: https://github.com/keras-rl/keras-rl

documentation: https://keras-rl.readthedocs.io/en/latest/

論文は出していないようです。

PFRL

github: https://github.com/pfnet/pfrl

documentation: https://pfrl.readthedocs.io/en/latest/

paper: ChainerRL: A Deep Reinforcement Learning Library

stable baselines3

github: https://github.com/DLR-RM/stable-baselines3

documentation: https://stable-baselines3.readthedocs.io/en/master/

paper: Stable-Baselines3: Reliable Reinforcement Learning Implementations

stable baselines3には、実験的に最新のアルゴリズムの実装も別のリポジトリで公開してます。それが、Stable Baselines3 Contribです。本記事では、これもStable Baselinesに含めています。

github: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib

documentation: https://sb3-contrib.readthedocs.io/en/master/

TF-Agents

github: https://github.com/tensorflow/agents

documentation: https://www.tensorflow.org/agents

論文は出していないようです。

Coach

github: https://github.com/IntelLabs/coach

documentation: https://intellabs.github.io/coach/

paper: Reinforcement Learning Coach

RLlib

github: https://github.com/ray-project/ray/tree/master/rllib

documentation: https://docs.ray.io/en/latest/rllib/index.html

paper: https://arxiv.org/abs/1712.09381

CleanRL

github: https://github.com/vwxyzjn/cleanrl

documentation: https://docs.cleanrl.dev/

paper: CleanRL: High-quality Single-file Implementations of Deep Reinforcement Learning Algorithms

mbrl-lib

github: https://github.com/facebookresearch/mbrl-lib

documentation: https://facebookresearch.github.io/mbrl-lib/

paper: MBRL-Lib: A Modular Library for Model-based Reinforcement Learning

対応アルゴリズム

備考欄に記載の内容は以下を参照

mb: model-based reinforcement learning
備考欄ではないですが、Stable Baselines3の列において✔の横に「sbc」と記載があるものは、Stable Baselines3 Contribで公開されているものです。

強化学習ライブラリ	tensorforce	Keras-rl	PFRL	Stable Baselines3	TF-Agents	Coach	RLlib	CleanRL	mbrl-lib	備考
ライセンス	Apache-2.0	MIT	MIT	MIT	Apache-2.0	Apache-2.0	Apache-2.0	MIT	MIT
TensorBoard	✔	✔	✔	✔	✔	✔	✔	✔		可視化ツール
Deep SARSA		✔
DQN	✔	✔	✔	✔	✔	✔	✔	✔
Bootstrap DQN						✔
APEX-DQN							✔
QR-DQN				✔sbc		✔
N-Step Q Learning						✔
Double DQN	✔	✔	✔		✔	✔
Prioritized Experience Replay (PER)			✔			✔
Hindsight Experience Replay (HER)				✔		✔
Dueling Network (Dueling DQN)	✔	✔	✔			✔
NAF (Continuous DQN)		✔	✔			✔
Categorical DQN			✔			✔		✔
Noisy Network			✔			✔
IQN			✔
PAL			✔			✔
NEC						✔
Gorila
Rainbow			✔			✔	✔
Ape-X
R2D2							✔
Pseudo Count Based
ICM
RND
NGU
Agent57
Policy Gradient						✔	✔
ACKTR				✔
Actor-Critic	✔
HAC						✔
A3C			✔			✔	✔
A2C	✔		✔	✔			✔
ACER			✔	✔		✔
UNREAL
World Models
SimPLe
REINFORCE					✔
VPG	✔
DPG	✔
DDPG		✔	✔	✔	✔	✔	✔	✔
MADDPG							✔
APEX-DDPG							✔
TRPO	✔		✔	✔sbc
CPPO						✔
APPO							✔
DD-PPO							✔
MaskablePPO				✔sbc
RecurrentPPO				✔sbc
PPO	✔		✔	✔	✔	✔	✔	✔
TD3			✔	✔	✔	✔	✔	✔
SAC			✔	✔	✔	✔	✔	✔
TQC				✔sbc
GAE						✔
Dreamer							✔			mb
IMPALA							✔
MC
MMC						✔
TD Gammon
AlphaGo
AlphaGo Zero
AlphaZero							✔
AlphaStar
OpenAI Five
MuZero
CEM		✔
BC						✔	✔
Conditional Imitation Learning						✔
GAIL				✔
LinUCB							✔
LinTS							✔
ARS				✔sbc			✔
CQL							✔
SlateQ							✔
QMIX							✔
ES							✔
MAML							✔
MARWIL							✔
MBMPO							✔			mb
MBPO									✔	mb
PETS									✔	mb
PlaNet									✔	mb
DDQ										mb
DFP						✔
CRR							✔
PPG								✔

関連

管理人

このサイトの管理人です。人工知能や脳科学、ロボットなど幅広い領域に興味をもっています。将来の目標は、人間のような高度な身体と知能をもったパーソナルロボットを開発することです。最近は、ロボット開発と強化学習の勉強に力を入れています（NOW）。

-ブログ, 学習, 強化学習

関連記事

: 技術的特異点（シンギュラリティ）って何？

近年の人工知能技術の発展に伴い、技術的特異点（シンギュラリティ）という言葉を耳にしたことのある方は多いのではないでしょうか？とはいえ、はっきりとは理解していない方も多いと思います。今回は、この技術的 ...

: 単純な4足歩行ロボット(SimQ)の開発をスタート！

先日、4足歩行ロボットのプロジェクトを始めたことを↓の記事にしました。このプロジェクトは、オリジナル設計の4足歩行ロボットの実機で歩行を実現することが目標ですが、いきなり実機を作成して歩行できるほど ...

: オートエンコーダ入門Ⅰ 【Deep Learning アドベントカレンダー2020】

オートエンコーダ（autoencoder：AE）とは、教師なしでデータの特徴を学習することができるニューラルネットワークです。制約の手法を変えることでオートエンコーダはさまざまな特徴を学習することがで ...

: UnityとROSで仮想myCobotを操作！

本記事では、UnityにロードしたmyCobotの仮想モデルをROSのMoveItから制御する方法を詳しく解説していきます。この記事はチュートリアル形式になっているので、順番に実行すれば再現できるはず ...

: D4RLとは…オフライン強化学習のベンチマーク！？

D4RL D4RLとは、Datasets for Deep Data-Driven Reinforcement Learningの頭文字をとったもので、オフライン強化学習のオープンソースのベンチマーク ...

［Weekly RL with code］４脚ロボットMinitaurの歩行学習

Transformerについて本質を分かりやすく解説！

おすすめ人気記事トップ５

1: 【図解】運動学入門：順運動学と逆運動学について解説！

この記事では、運動学について、初心者でもわかるように解説していきます。ぜひ最後までお読み頂けると幸いです。 ※内容に誤りがないよう心がけていますが、もし間違いを見つけられたときは、「お問い合わせフォ ...

2: ［Weekly RL with code］DQNでCartPole問題を解く

本記事は、当サイトのYouTubeチャンネルで公開している動画「［Weekly RL with code］DQNでCartPole問題を解く」の内容を記事として書き起こしたものです。記載内容は、動画で ...

3: 直感で理解するLSTM・GRU入門 - 機械学習の基礎をマスターしよう！

当記事では数式を使わずに、LSTMとGRUのエッセンスを直感で理解できるように説明します。同様の説明をYouTube動画にアップしているのでぜひご活用ください！当サイトはTwitterやYouTub ...

4: 1次元畳み込みニューラルネットワークでMNISTの時系列処理

畳み込みニューラルネットワークと聞いて、画像処理を真っ先に思いつくのが普通だと思います。でも、実は別の分野でも大きな成果を出しています。今回扱う1次元畳み込みニューラルネットワークは自然言語処理などの ...

5: 【詳説】Attention機構の起源から学ぶTransformer

みなさんは、Transformerについてどのようなイメージを持っていますか？最近は、BERT、GPTなどのTransformerベースのモデルが目を見張るような成果をだしているので、それらを想像する ...

PAGE TOP