管理人

管理人

このサイトの管理人です。 人工知能や脳科学、ロボットなど幅広い領域に興味をもっています。 将来の目標は、人間のような高度な身体と知能をもったパーソナルロボットを開発することです。 最近は、ロボット開発と強化学習の勉強に力を入れています(NOW)。

[強化学習]方策反復法と価値反復法についてコード付きで解説!

2023/10/23  

逐次意思決定問題 逐次意思決定問題とは、逐次意思決定のルールである方策を最適化する問題です。方策について信号の例を用いて補足すると、信号が赤なら停止、信号が青なら前進というルールが方策で、「信号が赤」 ...

レスポンデント条件付けとオペラント条件付け

2023/12/29  

本記事では、心理学における、レスポンデント条件付け(=古典条件付け)とオペラント条件付けについて紹介しつつ、強化学習との関連についても説明してきたいと思います。 行動の分類 行動とは生物が示す反応(例 ...

探索と活用のトレードオフ

2023/12/30  

この記事では、探索と活用のトレードオフ(exploration-exploitation trade-off)と呼ばれる、強化学習において重要な考え方を説明します。 多腕バンディット問題 多腕バンディ ...

方策勾配法と方策勾配定理の導出

2023/11/30  

本記事では、強化学習において重要な最適化方法の1つである方策反復法の具体的な手法の方策勾配法について解説するとともに、そこで使用する方策勾配定理について導出も示していきます。 はじめに 強化学習で使用 ...

CPG基礎|神経振動子モデルの理論と実装(執筆中)

2022/3/27  

この記事では、ロボットの適応的な歩行を実現するときに必要となる中枢パターン生成器(Central Pattern Generator: CPG)について解説します。 こんな方におすすめ 動物の歩行メカ ...

Hodgkin-Huxleyモデルの理論とPythonによる実装

2022/3/27  

Hodgkin-Huxleyモデルについて紹介していきます。 こんな方におすすめ 連続時間ニューロンに興味がある スパイキングニューラルネットワークに入門したい などの方々にとって有益なものとなるはず ...

フィッツヒュー-南雲モデルの理論とPythonによる実装

2022/3/27  

本記事では、連続時間ニューロンの一種であるフィッツヒュー-南雲モデルについて実装コードも含めて紹介していきます。 フィッツヒュー-南雲モデル フィッツヒュー-南雲モデル(FitzHugh-Nagumo ...

マルコフ過程・マルコフ報酬過程・マルコフ決定過程・部分観測マルコフ決定過程

2022/8/15  

この記事では、強化学習の根幹部分を理解することを目標に、マルコフ過程・マルコフ報酬過程・マルコフ決定過程・部分観測マルコフ決定過程、そして関連する理論について分かりやすく解説していきたいと思います。 ...

Generative Adversarial Networks(GANs)基礎

2022/3/27  

この記事ではGenerative Adversarial Networks(GANs)について解説していきます。 こんな方におすすめ GANについて詳しく知りたい GANのコードを動かしてみたい では ...

OpenAI Gym入門

2023/10/23  

この記事ではOpenAI Gymについて解説していきます。 こんな方におすすめ 強化学習のプログラミングに興味がある OpenAI Gymについて詳しく知りたい などの方々にとって有益なものとなるはず ...

PAGE TOP