Watson音声認識なかなか使えそう

スマートスピーカーやロボットのようにAI機能を使って言葉を認識して、行動を起こすというものが進化していますが、そのコア技術となるのが、音声認識技術です！

弊社では、IBM Watsonの音声認識エンジンである「Watson Speech to Text」というAPIを技術評価しています。音声認識技術のベースとなるのは、音声を正確に認識してテキスト化するということになります。

この音声認識エンジン自体は、かなり進歩してきており、「Watson Speech to Text」は、かなりの高認識率を実現できるようになってきました。また、正確に音声認識できれば、認識したテキスト情報から多言語翻訳するのもたやすく可能です！

また「Watson Speech to Text」にはオリジナルの辞書機能があり、専門用語などを辞書登録しておくことで、さらに専門的な会話内容の認識率を高めることができます！

ビジネスシーンでの音声認識技術活用シーンとしては、

・コールセンターの電話の会話ログのテキスト化

・会議議事録の自動作成

・映像のキャプション作成支援

・受付ロボットの音声認識エンジンとしての活用 ⇒ 自動翻訳化

などが考えられています。

但し、マイクの性能やノイズにより、音声認識レベル（認識率）というのは、大きく左右されてしまうというのも現状の課題です。

まだまだ課題はあるものの音声をテキスト化（音声認識）したいというニーズがありましたら、株式会社クリエイターズヘッドまでお気軽にご相談ください！

デモをお見せすることもできます！

Creatorshead