Google Speech API を手軽に試せる環境を Docker で構築した - Google Speech API on Docker

TL; DR

Google Cloud Speech APIをサクッと試せる環境を作った
- github: dogwood008/google_cloud_speech_recognition_sample
Dockerのコンテナを走らせるか、gitプロジェクトをクローンして bundle install で動きます
APIキーの取得は自分でどうぞ
- Google Speech APIを使えるようになるまで

先日、ベータ版でGoogle Cloud Speech APIが一般公開されました。ちょっとだけ試してみたい場合、前述のリンク先でテスト使用ができます。

ただし、そのページでテストできるのは その場で録音した音声 しか使用できません。「音声ファイルの場合どうなるんだ…？」というのをテストするには、実際にPOSTでリクエストを投げる必要があります。

その場合には適切にファイルを変換し、決められたパラメータを調べ、それをを付けてリクエストが必要です。本当にやりたいのはテストであって、パラメータを調べたり、対応する音声ファイル形式を調べたりすることではないのです。

手軽に試せるよう、 Docker のコンテナを起動するだけで全て整うようにしました。詳細はREADMEを読んで下さい。

APIキーの発行は自分で行う必要があります。以下を参考にして下さい。ちなみに、Chromium-devグループへの加入は不要でした。

実際にこれを使って手元にあった音声ファイルを認識してみたところ、声が響く環境だった＋「あー」等の間をつなぐ言葉が多用されていたため、あまり精度は良くありませんでした。

この記事「Google Speech API をストリームで利用してみた」にもあるように、ストリームでの認識も魅力的で、（おそらく録音環境と内容が適切であれば）かなりの精度を持っているようです。

これは予想ですが、話者が最初から音声認識させるつもりで話したものを録音したファイルであれば、認識精度は良いのではないかと思います。