dogwood008の開発メモ!

最近のマイブームは機械学習, Ruby on Rails。中でも機械学習を使った金融商品の自動取引に興味があります。

Google Speech API を手軽に試せる環境を Docker で構築した - Google Speech API on Docker

f:id:dogwood008:20160728235742p:plain
ロゴはhttps://cloud.google.com/speech/より。

TL; DR

前書き

先日、ベータ版でGoogle Cloud Speech APIが一般公開されました。ちょっとだけ試してみたい場合、前述のリンク先でテスト使用ができます。

ただし、そのページでテストできるのは その場で録音した音声 しか使用できません。「音声ファイルの場合どうなるんだ…?」というのをテストするには、実際にPOSTでリクエストを投げる必要があります。

その場合には適切にファイルを変換し、決められたパラメータを調べ、それをを付けてリクエストが必要です。本当にやりたいのはテストであって、パラメータを調べたり、対応する音声ファイル形式を調べたりすることではないのです。

やったこと

手軽に試せるよう、 Docker のコンテナを起動するだけで全て整うようにしました。詳細はREADMEを読んで下さい。

github: dogwood008/google_cloud_speech_recognition_sample

APIキーの発行は自分で行う必要があります。以下を参考にして下さい。ちなみに、Chromium-devグループへの加入は不要でした。

後書き

実際にこれを使って手元にあった音声ファイルを認識してみたところ、声が響く環境だった+「あー」等の間をつなぐ言葉が多用されていたため、あまり精度は良くありませんでした。

この記事「Google Speech API をストリームで利用してみた」にもあるように、ストリームでの認識も魅力的で、(おそらく録音環境と内容が適切であれば)かなりの精度を持っているようです。

これは予想ですが、話者が最初から音声認識させるつもりで話したものを録音したファイルであれば、認識精度は良いのではないかと思います。

参考にさせて頂いた記事、資料