Creatorshead

株式会社クリエイターズ・ヘッドのつぶやき

Watson音声認識なかなか使えそう

スマートスピーカーやロボットのようにAI機能を使って言葉を認識して、行動を起こすというものが進化していますが、そのコア技術となるのが、音声認識技術です!

 

弊社では、IBM Watsonの音声認識エンジンである「Watson Speech to Text」というAPIを技術評価しています。音声認識技術のベースとなるのは、音声を正確に認識してテキスト化するということになります。

 

この音声認識エンジン自体は、かなり進歩してきており、「Watson Speech to Text」は、かなりの高認識率を実現できるようになってきました。また、正確に音声認識できれば、認識したテキスト情報から多言語翻訳するのもたやすく可能です!

 

また「Watson Speech to Text」にはオリジナルの辞書機能があり、専門用語などを辞書登録しておくことで、さらに専門的な会話内容の認識率を高めることができます!

 

ビジネスシーンでの音声認識技術活用シーンとしては、

・コールセンターの電話の会話ログのテキスト化

・会議議事録の自動作成

・映像のキャプション作成支援

・受付ロボットの音声認識エンジンとしての活用 ⇒ 自動翻訳化

などが考えられています。

 

但し、マイクの性能やノイズにより、音声認識レベル(認識率)というのは、大きく左右されてしまうというのも現状の課題です。

 

まだまだ課題はあるものの音声をテキスト化(音声認識)したいというニーズがありましたら、株式会社クリエイターズヘッドまでお気軽にご相談ください!

 

デモをお見せすることもできます!