Googleドキュメントで音声入力を試してみた！

1 はじめに
2 音声入力（音声文字起こし）とは？
3 音声入力はどういった使い方ができる？
4 音声入力で文章を起こしてみる！
5 音声入力その実力（精度）は？
6 音声入力精度は低いけど、速度は速い？
7 おわりに

はじめに

オンラインを前提とした働き方が広く普及し、我々の生活様式もだいぶ様変わりしてきました。それを実現するための色々な手段（ツール）のうち、Google Workspaceに関して多くの情報を発信しておりますが、今回は多少マニアックな音声入力（音声文字起こし）について、その機能を紹介するだけでなく、実際に動かしてみた様子と結果（精度）も合わせてお伝えしたいと思います。

音声入力（音声文字起こし）とは？

音声入力（音声文字起こし）機能は、文字通り、コンピュータが聞き取った言葉を文字（Text）として表現してくれる機能です。今となっては一般用語というべきAI（人工知能）の技術を用いた機能で、画像認識・自然言語認識につづく大きなAIのジャンルと言えます。

音声入力はどういった使い方ができる？

音声入力は議事録作成や、ライティング、そして放送業界でいうキャプション（字幕）などの領域で脚光を浴びている模様です。

他には、コールセンターなどにおける情報分析やデータ活用でも注目されています。

音声データは膨大にあるものの、音声のままだと分析しにくかったのに対し、文字として扱っていけば、比較的簡単に活用できるという理由があるそうなので、納得ですよね。

音声入力で文章を起こしてみる！

少し余談を挟みましたが、早速音声から文章を起こしてみたいと思います。

先ずは音声入力に使う文章を用意する

何を音声入力にインプットすべきか。ですが、今回はUsersDigitalとは？に書いている内容を一部抜粋しました。

“DX推進、デジタルシフトの重要性が叫ばれる中、日本はしばしばデジタル化が遅れている。DXが進んでいない。と指摘されるようになりました。必ずしもその指摘が正しいとは限りませんが、諸外国に比べ、劣後してしまっている感は否めません。日本社会のITに対する考え方やIT産業の構造の影響もあり、企業のIT部門は少ない人数で多くの仕事を抱える必要があるようにも思えます。そうした環境下では、デジタル化やDX推進はIT部門が考えるべき。と言う話も無理のある話ではないかと思います。最も、DXそのものが「自らを、自らのビジネスを変革させる」ことだとすれば、なおさらIT部門だけが担うべき性質のものではないことは明白ではないでしょうか。”

今回はこの文章を使って試してみたいと思います。

自分でしゃべるのは気が引けるので、Amazon PollyのTakumiさんの声を借用する

自分で読み上げればいいだけの話ですが、シャイな筆者の性格上、踏み込みにくいので、Amazon Web Serviceの機能であるAmazon Pollyを使おうと思います。

Amazon Pollyは音声合成技術を用いて文字列を音声にしてくれるサービスで、入力した文章を立派な声優の声で読み上げてくれます。一部ラジオ局などで、大規模災害時など緊急時におけるアナウンサー到着遅延問題やアナウンサー疲労軽減を目的とした活用を模索しているとも聞きます。

こちらが、そのPollyに入力した実際の文字列で、出来上がった音声ファイルです。

※DXをどうしても「デラックス」と読み上げるのでカタカナでどうにか誘導しています。単語を事前に登録することもできますが、一つだけだったので、文章を変えています。

Amazon Pollyで作った音声ファイル

多少不自然なところはありますが、声が素敵です。この音声ファイルを使って文字起こしを試したいと思います。

空のGoogle ドキュメントを作成して、いざ試す！

Googleドキュメントを開いて「ツール」→「音声入力」を選ぶか、「Ctrl＋Shift＋S」で、音声入力機能を呼び出すことが可能です。

※初めて使用する場合は、ブラウザがマイクにアクセスできる許可を求められる場合があります。許可してあげましょう。

実際に音声入力をしている様子を録画し、GIFファイルを作成しました。リアルタイムで文字が書かれていき、且つ途中で修正されていく様子が見られます。※ファイルサイズの問題で画質が悪く、申し訳ありませんが、動いている様子をご覧頂ければと思います。

音声入力音声文字起こし Googleドキュメント Amazon Polly — Amazon Pollyでの音声入力

音声入力その実力（精度）は？

荒いGIFで、見にくかったとは思いますが、お気づきの方もいらっしゃるでしょう。
そう、このパターンでの精度はかなり低いモノでした。きっと筆者が自分でしゃべるのをやめてAmazon PollyのTakumiさんに頼ったからなのでしょう。。。
※実は上記の実験、AI（音声合成技術）がしゃべっている内容をAI（音声認識技術）が文字起こししているので、考えてみたら不思議な気持ちになります。

この結果で、Googleさんの音声認識精度が悪いという話になるのは望ましくないので、追加で筆者がゆっくりめに喋ってみることにしました。

またまた荒いGIFで恐縮ですが、だいぶマシな結果になっていそうです。

この二つの音声入力結果を原文と比較するため、簡単に文章の比較ができる文章類似度算出（速攻ハック版）でマッチ度を調べてみました。また、音声による入力と対比するものとして、手入力したものも合わせてチェックしたので、以下にまとめてご紹介します。

Amazon PollyのTakumiさん音声の場合

前述の通り、AIがしゃべって、AIがライティングするという夢のような話は、まだ夢なのでしょうか。今回テストした中で、一番低い類似度71.5％となりました。

本物の人間のおじさん（筆者）音声の場合

筆者が割とゆっくり喋ったのも影響していると思われますが、類似度はぐんと上がって87%となりました。これぐらいならまだもう少し手直しすれば使えるレベルと言って良いでしょうか。

本物の人間のおじさん（筆者）が手入力した場合

最後に音声入力したものと対比するものとして、手入力も試してみました。筆者がスマホの画面を見ながらできるだけ早くタイピングしたものですが、やはり、マッチ度は一番の96.4%が出ています。
※もちろん、タイピングが得意な方がやれば、もっと早く、精度も高いと思います。

音声入力精度は低いけど、速度は速い？

これまで、精度という意味で見てきましたが、精度だけだと、人間のタイピングに勝ることは出来ないと思うので、同じ文章を起こすためにかかった時間も表でまとめてみました。

	Amazon Polly Takumiさんの音声	普通のおじさんの音声	普通のおじさんの手入力
所用時間	2分22秒	1分11秒	2分30秒
マッチ度	71.5%	87%	96.4%

Amazon Polly Takumiさんの検証結果がいまいち生きていない感が否めませんが、ご覧の通り、普通のおじさんがタイピングした場合に比べると、半分以下の時間で、同程度の文字数を起こしていることになります。
※普通のおじさんと言っても筆者はエンジニアでパソコンを使った仕事で飯を食っているので、タイピングが遅いというのことは無いと思っています。

この結果を見る限り、精度を求めるよりも、速度を求める場合に向いていると言えるのではないでしょうか。
※AI技術は進歩し続けるので、そのうち精度も引き上げてくるのではないかと思いますが。