マルチモーダルAIって何ですか?
どこで、その言葉を知ったのかな?
ロボットの人工知能について調べていたら見つけました!
じゃあ、今回はマルチモーダルAIについて説明しよう。
マルチモーダルとは
まずは、マルチモーダルの意味を確認しよう。
マルチモーダルの意味は知ってるかな?
えっと、複数のモーダルが・・・
モーダルってなんだろ?
モーダルっていうのは、「モードがある」という意味なんだ。
モードっていうのは、工学系の人なら馴染みがあると思うけど、「状態」を意味しているよ。
例えば、「モードを変える」と言ったら、「機械の状態を変える」っていうことを意味するよね。
じゃあ、マルチモーダルの意味は、「複数の状態がある」って意味だね。
まあ、そういうことだね。
ここまでの内容を簡単に文章で説明します。マルチモーダルとは、モードが複数あるものです。モードは、テレビの映像入力モードをHDMIに変更する、スマホを低電力モードに変更する、というような使い方をすることから、モードは「状態」と解釈することができます。
工学系の方であれば、自動機械を状態機械として扱うため馴染みがあると思います。状態という言葉をイメージしにくい場合は、「機能」と訳すと分かりやすいかもしれません。
AIとは
AIとは、Artificial Intelligenceの略で、意味は、人工知能です。人工知能とは、一般的に、機械で知的な機能を実現する技術のことを言います。詳しくは以下の記事で解説しているのでご参考ください。
マルチモーダルAIとは
やっと本題に入るよ。
さあ、ここまでの内容を踏まえると、マルチモーダルAIはどんな意味になるかな?
複数の状態があるAIだよね?
そうだけど、ここでは、もう一歩踏み込んで考える必要があるね。
状態って、抽象的すぎるから、少し具体的にしていこうか。
状態には何が考えられると思う?
入力データの種類、出力の種類、学習器の種類・・・
色々考えられるね。
そう!その中に答えがあるね。答えを教えよう。
ここでいう状態は、入力データの種類だ。
なるほど。ということは、マルチモーダルAIは、「入力データの種類が複数あるAI」のことだね。
そうです!
マルチモーダルAIについて簡単に説明します。先ほど、マルチモーダルの意味は「複数のモード(状態)」という意味があることを説明しました。ここで、モード(状態)は何にでも適用できる抽象的で便利な言葉ですが、マルチモーダルAIの意味を理解するには、状態が何かを具体的に踏み込んで理解する必要があります。先に答えを言うと、マルチモーダルAIとは、複数種類のデータを統合的に処理して結果を出す人工知能です。より理解しやすいように具体的な例を示して説明します。
ここに、画像から感情を認識するAI、音声から感情を認識するAI、発話内容(文章)から感情を認識するAIがあると仮定します。それぞれのAIは、画像だけ、音声だけ、文章だけを入力として扱うことしかできません。これら個々のAIの感情認識精度は実用化できるほどではないとします。ここから、実用化できるほどに精度を向上させる必要があります。どのようにしたらよいでしょうか?
答えは、これらのAIを何らかの手法を用いて合体させ、1つのAIにすることです。これは、単一種類のデータのみから感情認識を行うよりも、複数種類のデータを統合的に用いて感情を認識する方が精度が高いだろうという仮定に基づいています。
さて、モード(状態)の話を思い出すと、3つのAIを合体させたAIは、画像から感情を認識するモードと、音声から感情を認識するモード、文章から感情を認識するモードを同時に扱っていることから、複数のモードを同時に扱う、すなわちマルチモーダルになっています。
マルチモーダルAIについてイメージできましたでしょうか?
汎用人工知能とマルチモーダルAI
汎用人工知能とは、一般的に、人間のように高度な知能を持つ人工知能のことを言います。人間の知能は、五感を巧みに利用しており、どれかの感覚が欠けてもある程度の精度で認識することができます。これは、それぞれの感覚から得られる情報を、マルチモーダルに扱っているからだと考えることができます。ここから、汎用人工知能は、マルチモーダルAIの延長線として、実現される可能性があります。
マルチモーダルAIの研究テーマ
マルチモーダルAIは、種類の異なるデータをどのように合体させるか、異なるデータを同じ空間上で扱えるかなど、さまざまな研究テーマがあります。この論文[1]によると、マルチモーダルAIは、以下の5個の研究課題からなるようです。
- Representation
- Translation
- Alignment
- Fusion
- Co-learning
それぞれは、完全に線引きできるものではなく、互いに関係し合っています。ここでは、これらについて簡単に紹介します。
Representation
人工知能の精度は、入力するデータをどのように表現するかにより大きく変化します。複数のモダリティを扱う人工知能において、適切なデータ表現は、どのようなものかを研究するのがこのテーマです。
Translation
あるモダリティから別のモダリティに変換することを研究するテーマです。
Alignment
2つ以上のモダリティ間のサブ要素の直接的な関係を明らかにするテーマです。
Fusion
2つ以上のモダリティを統合することを扱う研究テーマです。
Co-learning
モダリティ間の知識の共有、表現、予測モデル間の知識の共有させることを扱うのがテーマです。
さいごに
マルチモーダルAIは、今後注目されていくであろう人工知能技術の1つですが、奥が深く、まだ多くの研究課題が残っています。
マルチモーダルAIをしっかり理解していなくても、細分化された個々の研究テーマは、画像処理、音声処理、自然言語処理などの従来からある研究テーマをベースとしており、これらをどのように合体させていくかを考えていくことになります。個人的に感じていることですが、マルチモーダルAIというのは、それ自体を作ろうとするよりも、マルチモーダルAIの考え方や手法を、画像処理などの研究テーマに取り入れていく感じで使われることが多いのではないかと思っています。
もし、人工知能の研究をされている方であれば、マルチモーダルAIについて理解しておくことは必須になるでしょう。また、専門外の方でも、現在の人工知能の傾向について大まかに理解しておくという意味で重要でしょう。
この記事を通じて、少しでもマルチモーダルAIについて親しくなっていただけたら幸いです。
また、当サイトでは、人工知能に関する多くの記事を投稿しています。お時間がありましたら、他の記事も見ていただけると幸いです。最後までお読みいただきありがとうございました。
参考文献
[1] Tadas Baltrušaitis, Chaitanya Ahuja, Louis-Philippe Morency. "Multimodal Machine Learning: A Survey and Taxonomy." CoRR, vol. abs/1705.09406, 2017.