帰納バイアスとAIモデルの未来：汎用AIの設計における新たな視点

汎用人工知能の実現が目前に迫っているように感じる今日この頃、今後の汎用人工知能研究はどう進むのか気になることが多くなりました。

汎用人工知能を実現するには、人工知能の研究だけでなく、脳の研究や人間の研究なども必要で、単純な話ではありませんが、ふと論文を読んでいたところ、帰納バイアスとよばれる概念があるようで、私としてはそれが気になったのと、汎用人工知能の実現アプローチを考えるうえで、帰納バイアスというのは重要な視点ではないかと感じたため、帰納バイアスの意味や定義を示しつつ、私の考えを記事にまとめました。

本記事の内容を通じて、帰納バイアスについての知識を深め、また、今後の汎用人工知能研究の方向性について考えるきっかけとなれば幸いです。

帰納バイアスとは

帰納法

皆さんは、帰納法（inductive reasoning）をご存じだと思います。帰納法とは、観察された具体的な事例から一般的な法則を導き出す推論方法で、哲学者のベーコンによって唱えられました。帰納法は数学でも重要な手法として位置づけられており、数学的帰納法として知られています。数学的帰納法は、式が成立することを示すときに、\(n=1\)の時に成立することを確認したうえで、\(n=k\)で成り立つと仮定し、\(n=k+1\)でも成立することを示すことで、全てにおいて式が成立することを示す手法です。

機械学習の学習モデルは、既知の学習データから表現を学習し、未知のデータに対して適用し、推論を行う点で帰納的なアプローチを用いているといえます。すなわち、学習データにフィットするように学習をすれば、未知のデータにも対応できるという仮定の下で利用しているのです。

バイアス

バイアス（bias）についても簡単に確認しておきましょう。バイアスには偏りや傾向、先入観といった意味があります。あまり良いイメージを持たれないかもしれませんが、ようは中心からは少し外れているというニュアンスがあると捉えていただければよいでしょう。

ここで、学習データが与えられ、高精度な学習モデルを構築することを考えます。皆さんは何をしますか。Kaggleなどデータサイエンス系のコンペを試したことがある方であれば予測がつくかもしれませんが、大枠としては、与えられた学習データを分析して、適切な前処理や学習モデルのアーキテクチャを発見する作業をします。つまり、学習データを分析し、データの偏りや傾向をいかに見つけ出し、適切な前処理を実施＆適切な学習モデルのアーキテクチャを見つけるかがほぼ全てなのです。前処理は重要な要素ですが以降の話ではあまり重要ではないので一旦忘れてもらって、学習モデルのアーキテクチャに焦点を当てたいと思いますが、このようにして構築された学習モデルのアーキテクチャは、当然、与えられた学習データに特化したものになっているでしょう。

帰納バイアス

以上の話を踏まえ帰納バイアスについて説明します。長々と説明してきましたが、学習モデルが学習し推論する帰納的なプロセスの中に、学習データの分析などに基づく「おそらくこうだろう」という帰納的な仮定が学習モデルのアーキテクチャに反映されたバイアスのかかったものとなっていることを帰納バイアス[1]と呼びます。学習モデルのアーキテクチャの設計の際に対象のデータに対する事前の仮定や傾向と定義することもできます。例えば、畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）[2]や再帰型ニューラルネットワーク（Recurrent Neural Network）[3]は、帰納バイアスの高い典型的なニューラルネットワークです。畳み込みニューラルネットワークは、画像の局所的な特徴を捉える能力を持つフィルタ構造を持ち、画像データに空間的な位置関係に対する仮定を置いています[4]。また、再帰型ニューラルネットワークは、系列の順序的な特徴を捉えるための再帰性を持ち、系列データに時間的な位置関係に対する仮定を置いています（リカレント帰納バイアス）[5]。これらは学習によって獲得されるものではなく、分析対象のデータに対して仮定を置くことで導出されたアーキテクチャに起因する特性です。

帰納バイアスの落とし穴

ふーん、なるほど、これが帰納バイアスなのね、と理解していただけたところで、帰納バイアスには大きな落とし穴があることを述べます。

帰納バイアスの無いモデルは存在しない

まず理解して欲しいのは、世の中の全ての機械学習モデルには程度の差こそあれ、何かしらの帰納バイアスがあるということです。私たちは機械学習モデルを用いて何かをするときは、ネットなどから事前学習モデルをインストールしてきて使うことが多いと思いますが、帰納バイアスについて考えずに使おうとすると、精度の向上が思うようにいかないということになりかねないのです。極端な例を挙げれば、画像認識にRNNを選択して精度が出ないことに対して騒ぐようなものです。実際には、もっと類似したモデル間での比較検討になると思いますが。

帰納バイアスの高低と利点や欠点

鋭い人ならこう思うかもしれません。帰納バイアスがとても低い汎用的な学習モデルのアーキテクチャを実現すれば何も考える必要がないぞと。確かにその通りで、どんな対象・タスクも最高精度で実現できるような汎用的なアーキテクチャを見つけられれば、帰納バイアスについて考えずに済むかもしれません。しかし、ここで考えなければならないことがあります。それは帰納バイアスは害悪なのかです。

一般的な傾向として、帰納バイアスが低いモデルは汎用的であるため、様々なタスクに対応できる高性能さを持っています。一方で、それを実現するには、想像を絶するような膨大は学習データが必要です。一方で、帰納バイアスの高いモデルは適応対象へ特化しているため、計算コストの改善ができる、少ない学習データで精度がでる、といった実用化において重要視されがちな項目の味方です。実用化では、学習モデルのアーキテクチャは適応先のスペックや要求される仕様との相談のうえで決められることになるため、必ずしも帰納バイアスの低いモデルを選択できるとは限らないのです。

このように、帰納バイアスの高低にはそれぞれ利点と欠点があるため、それを理解して適切なものを選ぶ必要があります。

帰納バイアスとの付き合い方

基本的に、自分で学習データを作成して、学習モデルを学習させるような場合は、データが限られたものになるので、帰納バイアスの高いモデルを使わざるを得ないのが現状でしょう。

とはいえ、帰納バイアスの高さが生かせるのは、帰納バイアスが分析対象のデータと合致した場合です。合致しない場合は、ひどい結果をもたらします。そのため、帰納バイアスについては常に頭の片隅に置いておき、自分が選択している学習モデルは適切なのか、常に考え続ける必要があります。

汎用人工知能モデルと帰納バイアス

上記の内容を考慮したとき、汎用人工知能はどのようにして実現され、実現された後はどのような方向で研究が進む可能性があるのか考えてみましょう。

汎用人工知能の定義ですが、ここでは人間と同じくらいの知能を持つ人工知能ということにします。すなわち、人間の到底理解のできないレベルの知能である超知能は汎用人工知能には含めないものとします。
※GPT-4が登場したことで、既に汎用人工知能が完成したと考える人もいるかもしれませんが、まだ、我々の望む汎用人工知能は完成していないと仮定します。

これを考える意義

そのまえに、冒頭で今後の汎用人工知能研究がどう進むかが気になっていると記載しましたが、かなり話題が大きく飛ぶので、これを考える意義を私なりの考えではありますが先に記載しておきたいと思います。

まず、人工知能研究には何度か冬の時期があり、深層学習により訪れた人工知能ブームは第三次人工知能ブームと呼ばれています。第三次人工知能ブームは2000年代初頭から始まっていますが、勢いがついてきたのは2011年ころのILSVRCにおけるAlexNetと呼ばれるCNNの台頭からで、それ以降、数年ほどCNNの熱狂的なブームが続きました。その後、深層学習の限界を語る方などから、第三次人工知能ブームは終わるのではないかという見方が徐々に強くなりました。結果的に、現在も続いていますが、当時の私の考えとしては、第三次人工知能ブームが終わるとは思っていませんが、第三次人工知能ブームでは汎用人工知能には到達しないだろうと思っていました。しかし、2017年にTransformer[6]の論文「Attention is All you Need」が発表されて以降、流れが大きく変わったと思っています。2018年には初代のGPTであるGPT-1が登場しました。それらの人工知能が我々一般人に公開されることは、ChatGPT[7]が登場するまでありませんでした（APIの公開は除く）が、ちょくちょく人工知能の生成した文章が人間と変わらないくらいになったというようなニュースは耳にするようになりました。そして、今、ChatGPTが世間に公開され、我々はその凄さに驚かされるばかりな状態になっています。ここで注目して欲しいのは、ChatGPTなどの高度な人工知能はいまだ2017年に公開されたTransformerモデルをベースとしている点です。Transformer自体は凄い仕組みだと思いますが、これが人工知能のアーキテクチャの最終形態だと思いますか？私はそうは思わなくて、いずれTransformerに替わるさらなる革命的なモデルが登場すると思うのです。そして、これからの人工知能の時代、人工知能を使うだけではなく、生み出せる人材になっていくには、Transformerの次に来るモデルを予測しながら研究を行う必要があると思うのです。そのヒントが帰納バイアスを考えることで得られるのではないかと思ったのです。長々と記載しましたが、これが汎用人工知能と帰納バイアスについて考えたいと思った理由です。

Transformerの帰納バイアス

Transformerは、2023年に大ブームとなっているChatGPT[7]でも使用されており、多様なタスクを高い精度で達成できる、今までで一番汎用人工知能に近いといわれているAIの中心技術です。では、どのような要因がTransformerの成功に寄与しているのでしょうか？その答えの一つは、Transformerがほとんど帰納バイアスを持っていないことにあります[8]。つまり、データに対する仮定がほぼなく、特定のタスクに特化したアーキテクチャではありません。もう一つは、大量のデータの利用が関係しています。特に、Transformerが最初に自然言語処理で成功したのは、膨大なテキストデータが利用可能だからです（厳密にいえば高精度な事前学習モデルの配布なども影響）。

一方で、データ量が少ない場合、Transformerの真の力は十分に発揮されません。Transformerは柔軟性や記憶力が高いため、データが少ないと過学習を起こしやすく、理想的な精度を得にくいです。実際に、データが不足している場合、LSTM[9]はTransformerよりも高い性能を示すことが多く、これはLSTMの帰納バイアスが高いためと考えられています[5]。

帰納バイアスが低いと、想定外に高度な知能を持つモデルを実現できる可能性がありますが、それは膨大な学習データが手に入る場合に限ります。

これまで、Transformerの帰納バイアスの低さについて主張してきましたが、帰納バイアスが存在しないわけではありません[10]。双方向性の有無という観点で見ると、Transformerのエンコーダ部分は、位置の依存性に関する仮定がほとんどなく、過去と未来の両方を入力可能な範囲で考慮できます。一方、デコーダ部分は生成に特化しており、未来からの接続は持たず、過去からの接続のみを持つ構造になっています。Transformerのデコーダはエンコーダに比べて帰納バイアスが高いといえるでしょう。それぞれの代表的なモデルには、BERT（エンコーダ側）[11]とGPT（デコーダ側）[12]があります。GPTはBERTに比べて、帰納バイアスが高く、GPTの現在の成功は、その適切な帰納バイアスが大きく寄与していると考えられます。

汎用人工知能の帰納バイアス

汎用人工知能は何でもやれることが要求されるので、特定のデータに特化した学習モデルでは対応できません。そのため、汎用人工知能は帰納バイアスの低いモデルで実現されるというのはほぼ確実でしょう。

すなわち、汎用人工知能の研究は、今後も、Transformerの帰納バイアスの低さを維持、もしくは更に帰納バイアスが低いモデルの研究が進むと思われます。余談ですが、次期GPTであるGPT-5は汎用人工知能に到達するのではと噂されており、仮にそうであれば、Transformerベースで汎用人工知能が実現されることになります。ChatGPTのGPT-4を使っている身としては、GPT-5では本当に汎用人工知能になるのではないかというのが現実に迫ってきたなと思っています。

汎用人工知能を実現した後の研究と帰納バイアス

そして、一度、汎用人工知能が実現されたら、研究の方向性は2つに分かれると思います。それは、超知能を目指す研究と汎用人工知能を実用化する研究です。超知能を目指す研究は、より帰納バイアスを下げる方向で研究が進むでしょう。一方で、汎用人工知能を実用化する研究は、帰納バイアスを高くする方向に進むと考えます。汎用人工知能は我々人間の生活に欠かせないものとなり、将来は確実にパソコンやスマートフォンレベルの端末に汎用人工知能が搭載される時代が来ると思います。そのためには、計算コストの小さいマシンで動作するようなモデルに改良していかなければなりません。つまり、小型端末で高速に計算できるような専用のアーキテクチャの開発などが必要になってくるわけで、それは帰納バイアスを高めることを意味します。

まとめると、汎用人工知能が実現されるまでは、汎用人工知能の研究は帰納バイアスを低くする若しくは現状維持で研究が進み、実用化された後は、確実に実用化と普及が予想されるため、帰納バイアスを高める方向に研究が進むだろうというと考えています。

余談になりますが、汎用人工知能は深層学習型と脳型のどちら側から研究すべきかという議論があります。私個人的に、深層学習型と脳型の大きな違いは帰納バイアスにあると考えていて、つまり、深層学習型は帰納バイアスが低く、脳型は帰納バイアスが高いと考えています。よく我々の脳は深層学習よりも少ないデータですぐに理解・学習できるので、脳型の方が高性能と考える方もいるかもしれませんが、高性能というのを我々人間の扱うレベルのタスクにおける理解速度とかではなく、真の知能レベルという指標があるとしてそれを計測できるなら、脳型の理解・学習速度が速いというのは、脳型の方が帰納バイアスが高いことを意味し、その裏返しとして柔軟性の欠如を示唆している可能性があると思います。とはいえ、朝昼晩の3食だけで、頭を使い続けることができる脳の省エネさは実用化において欠かせない視点で、先に汎用人工知能に到達するのは深層学習型だと思いつつも、その後の実用化プロセスにおいて、最終的なゴールとして脳型になるというシナリオは十分にあり得るのではないかと思っています。

まとめ

この記事では、帰納バイアスという観点から人工知能モデルの設計について考察しました。精度の向上においてデータ量と帰納バイアスはトレードオフの関係にあり、帰納バイアスが低いモデルは膨大なデータが集められれば高精度になる可能性がありますが、データが限られている場合には適度な帰納バイアスが必要になります。

Transformerはかなり帰納バイアスの低いモデルとして登場しました。今後、超知能を目指す方向ではより帰納バイアスの低くする方向でモデルの開発が進み、我々の知能ような汎用人工知能の研究では、スマホやロボットなどへの搭載の流れで、帰納バイアスを高くする方向でモデルの開発が進む可能性があると考えます。

読者様はどのように考えますか？
将来はどのようになるか分かりませんが、ある一つの考えとして受け止めていただければ幸いです。
最後までお読みいただき、ありがとうございました。

参考文献

[1] Tom Michael Mitchell, "The Need for Biases in Learning Generalizations," 2007.
[2] Kunihiko Fukushima, "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position," Biological Cybernetics, 1980.
[3] David E. Rumelhart and James L. McClelland, “Learning Internal Representations by Error Propagation,” in Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations, 1987.
[4] Yun-Hao Cao, and Jianxin Wu, "A Random CNN Sees Objects: One Inductive Bias of CNN and Its Applications," arXiv, 2021.
[5] Ke Tran, Arianna Bisazza, and Christof Monz, "The Importance of Being Recurrent for Modeling Hierarchical Structure," in Proc. EMNLP, 2018.
[6] Ashish Vaswani, Noam M. Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, "Attention is All you Need," in Proc. NIPS, 2017.
[7] OpenAI, "ChatGPT," Introducing ChatGPT (openai.com).
[8] Tianyang Lin, Yuxin Wang, Xiangyang Liu, and Xipeng Qiu, "A Survey of Transformers," arXiv, 2021.
[9] Sepp Hochreiter and Jurgen Schmidhuber, "Long short-term memory,” Neural Computation, 1997.
[10] Samira Abnar, Mostafa Dehghani, and Willem Zuidema, "Transferring Inductive Biases through Knowledge Distillation," arXiv, 2020.
[11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv, 2018.
[12] Alec Radford and Karthik Narasimhan, "Improving Language Understanding by Generative Pre-Training," 2018.
[13] Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, and Ji-Rong Wen, "A Survey of Large Language Models," arXiv, 2023.