マルチモーダルインタラクション - ホンダ・リサーチ・インスティチュート・ジャパン

マルチモーダルインタラクション

Cooperative Intelligence

多彩な入出力を組み合わせてより高度な対話を

テキスト、音声、画像のような入出力の形式のことを「モダリティ」と呼び、テキストを入力するとテキストで応答するシステムや、音声を入力すると音声で応答するシステムなど、さまざまなモダリティのシステムが考えられます。音と画像・映像を組み合わせた入出力を扱う「マルチモーダル対話システム」の研究も行っています。

テキスト、音声、画像などの情報を組み合わせたマルチモーダル対応システムの利用例としては、次世代ナビゲーションが挙げられます。次世代ナビでは、単に「次の道を左折」と告げるのではなく、周囲の状況を参照し「あの高い、赤いビルのところで左折してください」と指示することが望まれています。たとえばユーザーが「レッドライオンホテルのこと?」と聞くと「そうです。レッドライオンホテルの前で左折してください」などと、よりわかりやすく答えることが望まれるのです。
つまり、この例に挙げた次世代ナビでは、ユーザーの質問と環境の両方を分析、理解することが求められます。そういったことを実現するためには、言語理解、実世界参照、視覚の説明の技術を組み合わせた研究が必要なのです。

地図上の位置や建物の名称だけを用いるだけでなく、ユーザーの話し方や運転席からの見え方などをふまえたナビゲーションを実現するには、音声認識・言語理解・画像処理などの技術を組み合わせた「マルチモーダル処理技術」が必要です。

複数の人がロボットの前で話す

マルチモーダル多人数対話基盤 HALOGEN

HRI-JPでは、複数ユーザーとの同時対話を可能にする多人数対話ロボットの研究を行っています。
「HALOGEN(Human-Machine Dialogue Enhancer)」は、言語情報を処理するHRiMEの機能を強化するマルチモーダル対話研究基盤です。音声や画像・映像から言語以外の情報、例えばユーザーの声の大きさや調子、顔の向き、表情や身振り、性別、年齢などの情報を読み取り、言語情報と組み合わせて、現在しゃべっている人を推定したり、対話の状況を判断したりします。
HALOGENは複数の話し手を区別し、話し手ごとに得られた情報を管理することができます。

応答義務の推定

ロボットの前にユーザーが複数いる場合に難しいのが、応答すべきかどうかの判断です。例えば人とシステムが1対1の場合は問題なく応答できても、ユーザーが複数になりシステムの前でお互い会話を始めたりすると、システムは人間同士の会話や独り言にも誤反応し、余計な応答をしてしまいます。
HALOGENの「応答義務推定」研究では、人の顔の方向などにも着目して、応答すべきかどうかを判断します。また、人がシステムに話しかける時、反応が返ってくるかどうかわからないという心理のためか、ロボットの方を向いて話しかけた後「じっと待つ」という行動が広く見られます。この「待つ行動」も、応答義務の推定に活用されています。

ロボットの前で二人の人間が会話をしています。ロボットは、二人だけで会話しているときは、音声認識から入ってくる言葉に反応しません。人間がこちらを向いて話し、じっと止まるなどの応答を待つ仕草をしたときに、ロボットは「自分に話しかけてきた」と認識します。

人と同じものを見て理解する挑戦

指差し動作でシステムに命令

環境理解のために、マイクロフォンアレイだけでなく、カメラや深度センサーを使った5W1H情報抽出の研究も行なっています。物体検出、物体切り出し(物体までの距離情報などを組み合わせて物の正確な形を知る)、物体認識・顔認識(人や物の種類を認識)といった技術を扱っています。
ロボットにこうしたセンサーを搭載し、室内を移動しながら環境理解を行う研究にも取り組んでいます。
ロボットが移動しながら、音や画像情報から自分の位置、音の方向、数を推定することで、音・画像を合わせた三次元の地図を生成することができます。

音声や、指差し、ジェスチャなどマルチモーダル情報を用いて、人と自然にインタラクションできるシステムに関する研究を行っています。
人がシステムとインタラクションする場合、その方法には、人それぞれが異なる好みをもっているという傾向があります。
例えば、電気をつけるために音声コマンドを使いたがる人もいますし、同じことをするのに指差しを多用する人もいます。
こうした好みをすべて許容して、いつでも好きな方法で使うことができるようなシステムについて研究を行っています。

RGBセンサーによって物体の形や色を認識して、デプスセンサーによって物体との距離を検出したときのイメージ画像です。こうして、「なにがどこにあるか」がわかるようになります。