Google Speech-to-Text で日本語音声ファイルを文字起こし

 
m4a 音声データから文字起こししたのでメモ。

GCP の Speech-to-Text を使った。

まずは ffmpeg で .m4a を .flac に変換。

ffmpeg -i audio.m4a audio.flac

それから .flac ファイルを GCS に転送してから Speech-to-text にかける。
1分以上の音声ファイルは recognize-long-running オプションをつける。

gsutil cp audio.flac gs://MY-BUCKET-NAME/
gcloud ml speech recognize-long-running gs://MY-BUCKET-NAME/audio.flac --language-code='ja-JP' --async

そしたら ID が出力されるので、結果を確認する。

gcloud ml speech operations describe 123456789

metadata.progressPercent に進捗率が表示されるので、 100 になるまで待つ。
完成すると、段落毎に文字起こし結果が JSON で表示される。