知能ロボット - ホンダ・リサーチ・インスティチュート・ジャパン

知能ロボット

Cooperative Intelligence

ロボットが「耳」で聞いて会話する

HRI-JPでは立ち上げ当初から、ロボットのための音環境理解技術「ロボット聴覚」を研究しています。
旧来のロボットでは、ヘッドセットなど、ユーザーの口元に近接したマイクロフォンから入力された音声を認識していましたが、ロボットと会話するのにユーザーがいちいちヘッドセットを使うということでは自然とは言えません。ロボット聴覚とは、ロボットが自分の耳、つまりロボット自身に搭載したマイクロフォンで周囲の音を理解する技術を扱う研究分野です。

人は雑音の中でも目的の音だけを聞き分けることができます。しかし機械にとって、これはとても難しいことです。ロボットも自分自身の耳を使って周囲の音を理解しようとすれば、同様の問題が生じます。
そこで、HRI-JPでは、さまざまな音の中から目的の音を聞き分けることで、ロボットが環境や状況を理解し、「誰が、いつ、どこで、何を話したか/どんな音が発生したか」という音の5W1H情報を抽出する技術を研究開発しています。
中でも注力しているのが、複数のマイクロフォンを同時に用いるマイクロフォンアレイ処理です。マイクロフォンアレイ処理によって、音の「位置」を知り(音源定位)、聞きたい方向の音だけを「取り出し」(音源分離) 、その音の種類を「識別」(音源同定) し、音声であればこれを「認識」(音声認識)し、「誰が」話しているのかを「特定」(話者同定)することを可能にします。

ロボットに搭載したマイクロフォンアレイで処理することで、複数の人間の言葉を同時に聞き取ることができるようになります。また、周囲で発生している音の場所や種類を特定することもできます。

被災地での救助活動への応用

HRI-JPでは、マイクロフォンアレイ処理に対応するロボット聴覚研究用ソフトウェア「HARK」(HRI-JP Audition for Robots with Kyoto University, http://www.hark.jp/)をオープンソースとして2008年から公開しています。毎年更新を行い、ユーザー向けに国内外で講習会を開いています。HARKでは、様々な信号処理技術を自由に組み合わせることができ、音源の定位、分離、同定などの処理モジュールを提供しています。

HARKはさまざまな応用が可能です。一つの例として、ドローンによる音源の検出があります。ドローンは、プロペラ音自体が大きな雑音源にもなりますし、風切り音も雑音として扱わなければなりません。HRI-JPでは、そうした環境下でも音源を検出できる手法を独自に開発しています。

マイクロフォンアレイの例

マイクロフォンアレイの例

この手法は、内閣府の革新的研究開発推進プログラム(ImPACT)において、マイクロフォンアレイを搭載したドローンを被災地に飛ばして救助活動に役立てようとする研究プロジェクトでも用いられています。
カメラを搭載しただけのドローンでは、瓦礫に埋もれた人を見つけるのは困難ですし、一般的なマイクロフォンでは雑音の中から助けを求める声を拾いだすのは至難の技です。
このプロジェクトの活動の一環として、マイクロフォンアレイ処理を用いて救援を求める人を探し出す試みを行っており、屋外フィールドの騒音下での音源検出に成功しています。

Help

ドローンは、空からの被災者捜索に有効ですが、カメラだけでこれを行うには限界があります。マイクロフォンアレイを搭載した実験ドローンは、音源を定位・分離することで、人の声やホイッスル音といった音源がカメラの視野外や瓦礫にうもれている場合でも、その方向を推定できることを示しました。