Watson音声認識なかなか使えそう
スマートスピーカーやロボットのようにAI機能を使って言葉を認識して、行動を起こすというものが進化していますが、そのコア技術となるのが、音声認識技術です!
弊社では、IBM Watsonの音声認識エンジンである「Watson Speech to Text」というAPIを技術評価しています。音声認識技術のベースとなるのは、音声を正確に認識してテキスト化するということになります。
この音声認識エンジン自体は、かなり進歩してきており、「Watson Speech to Text」は、かなりの高認識率を実現できるようになってきました。また、正確に音声認識できれば、認識したテキスト情報から多言語翻訳するのもたやすく可能です!
また「Watson Speech to Text」にはオリジナルの辞書機能があり、専門用語などを辞書登録しておくことで、さらに専門的な会話内容の認識率を高めることができます!
ビジネスシーンでの音声認識技術活用シーンとしては、
・コールセンターの電話の会話ログのテキスト化
・会議議事録の自動作成
・映像のキャプション作成支援
・受付ロボットの音声認識エンジンとしての活用 ⇒ 自動翻訳化
などが考えられています。
但し、マイクの性能やノイズにより、音声認識レベル(認識率)というのは、大きく左右されてしまうというのも現状の課題です。
まだまだ課題はあるものの音声をテキスト化(音声認識)したいというニーズがありましたら、株式会社クリエイターズヘッドまでお気軽にご相談ください!
デモをお見せすることもできます!