commubo の技術的な特徴

commubo の開発元であるソフトフロントでは、これまでIP電話を中心に、音声や映像のリアルタイム・マルチメディア処理技術を培ってきました。これらの技術は、多くの通信機器メーカーや通信事業者に採用されています。この音声処理技術とリアルタイム処理技術を基に、スマートフォンや電話をインタフェースとする、人との自然な会話を実現するロボットシステムの研究に取り組み、自然会話AIプラットフォームの「commubo」が開発されました。
commubo の3つの機能的特徴をご紹介します。

  • HOME
  • 技術的特徴

(1) 音声認識、音声合成、会話の各処理をリアルタイムに実施

ロボットの会話処理では、人間の声を認識して、会話内容を捉え、返答を音声合成して再生する、一連の制御が必要となります。
commuboでは、この一連の制御をきわめて短時間のリアルタイム処理で実現し、人がストレスを感じない自然な会話を実現しました。

一連の処理を瞬時に実施

(2)動的な会話表現

人間同士の会話では、単純なあいさつや短い言葉でも、相手の特徴や状況に合わせて細やかに表現を変えることで、円滑にコミュニケーションしています。
commuboでは、これまでのロボットのような一定で単調な音声とは異なり、人間の発話や会話内容に合わせてゆっくり話したり、大きな声で話したり、感情を表しながら話すなど、ロボットの発話を動的に変化させることで、円滑な会話を実現します。

会話と相手に合わせた話し方

(3)シナリオによる継続的会話

スマートスピーカーに代表されるボイスコンピューティングでは、「天気を聞いて答える」ような、人間の質問にロボットが答える一問一答の形式が中心でした。
commuboは、実際のビジネスシーンの中で利用可能なロボットを目指し、ロボット側から会話目的に沿って説明~質問~確認するような、継続的で自然な会話を実現しています。

継続的で自然な会話