本記事では、心理学における、レスポンデント条件付け(=古典条件付け)とオペラント条件付けについて紹介しつつ、強化学習との関連についても説明してきたいと思います。
行動の分類
行動とは生物が示す反応(例えば動作など)の総称です。そして、行動は何らかの原因に対する結果として示されるものもあれば、何らかの目的を成すために示されるものがあります。これは、行動の原因が、行動の前にあるのか後にあるのかに焦点を当てて分類したもので、それぞれ、レスポンデント行動とオペラント行動と呼ばれています。
レスポンデント行動
レスポンデント行動とは、行動の原因が行動の前にあるものの総称です。条件反射など、受動的な行動がレスポンデント行動に該当します。
(例) 食事をすると唾液の分泌量が増加する
オペラント行動
オペラント行動とは、行動の原因が行動の後にあるものの総称です。能動的な行動がオペラント行動に概要します。
(例) 部屋を明るくするために照明のスイッチを押す
レスポンデント条件付け
レスポンデント条件付けとは、ある行動Aと、その行動Aとは無関係な刺激Bを関連付けて、その刺激Bによって行動Aが発現するように条件付けすることです。
レスポンデント条件付けの代表的な実験にパブロフの犬があります。
パブロフの犬
パブロフの犬とは、ロシアの生理学者であるパブロフが犬を用いて実施したレスポンデント条件付けの実験です。
犬は餌を与えられると、唾液を出すという反応をします。そこで、この反応の前にベルを鳴らすようにしました。すると、ベルを鳴らすだけで、唾液の分泌量が増える反応を示すようになりました。
オペラント条件付け
オペラント条件付け[1]とは、行動Aと、行動Aとは無関係な刺激Bを関連付けて、刺激Bを求める、もしくは回避するために行動Aをする、もしくはしないようになることを言います。
オペラント条件付けは、以下の図に示すように、強化と弱化があります。強化とは行動頻度が増加することを、弱化とは行動頻度が減少することをいいます。
そして、この行動の強化と弱化は、外部から刺激を受けたり、刺激がなくなったりすることで実現されるとされており、刺激の与え方によって、正の強化と負の強化、正の弱化と負の弱化があります。それぞれの現象と、刺激の与え方および行動頻度の関係を以下の箇条書きに示します。
- 正の強化|刺激を与えることで行動頻度が増加
- 負の強化|刺激を無くすことで行動頻度が増加
- 正の弱化|刺激を与えることで行動頻度が減少
- 負の弱化|刺激を無くすことで行動頻度が減少
このとき、刺激を与えたことで、以下の箇条書きのような反応が見られるようになります。
- 正の強化|刺激(快刺激)を求めるために行動をするようになる
- 負の強化|刺激(嫌悪刺激)を取り除くために行動をするようになる
- 正の弱化|刺激(快刺激)を求めるために行動をしなくなる
- 負の弱化|刺激(嫌悪刺激)を取り除くために行動をしなくなる
具体例を以下の図に示します。
スキナー箱の実験
スキナー箱の実験とは、アメリカの心理学者であるスキナーが行ったマウスを使った実験です。箱には、レバーと餌を出す装置が備え付けられており、レバーを下げると餌が供給される仕組みになっています。
その中にマウスを入れると、マウスは箱の中を自由に動き回ります。
偶然、レバーを下げたら餌が供給されました。
これによって、レバーを下げる動作の発現頻度が増加しました。
餌が貰えるという刺激とレバーを下げるという行動が結び付けられて、餌を貰いたければレバーを下げればよいということ条件付けすることができたということになります。
オペラント条件付けと強化学習
オペラント条件付けの考え方を利用した機械学習手法に強化学習があります。機械学習とは、人工知能分野の1つで、大量のデータから学習を行い、知的な機能を実現する分野です。機械学習は、教師あり学習、教師なし学習、半教師あり学習、強化学習などから構成されています。中でも、強化学習は、報酬を用いて最適な意思決定ルールを学習する分野で、強化学習の「強化」はオペラント条件付けの強化からきています。
実際、強化学習では、正の報酬が与えられた行動の頻度は上昇し、負の報酬が与えられた行動の頻度は減少するように学習されます。
参考文献
[1] Burrhus F Skinner, "Two types of conditioned reflex: A reply to Konorski and Miller," JGP, 1937.