#258 最近の音声入力
最近は主に音声入力とキーボード入力を併用しつつこれを書いていることが多いのだが、今日はこれは電車の中で書いている。そのためのキーボード入力のみとなる。そういった場合には主に入力量は減るのだが、しかし音声入力が変換を苦手とするような単語が頻出する場合にはそれをキーボード入力で修正する時間というのは意外にバカにならず、差はそれほど多く出ないこともある。
他には主に読みやすさの違いがあると思われる。それは句読点の違いだ。文章の終わりに入れる句点(つまり「。」のこと)は音声入力でもそれなりに、自分の中の区切りとしての文章の終わりが音声入力の区切りになっていることも多くて、そこだけキーボード入力で入れている。
しかし読点(つまり「、」のこと)は音声入力の場合ある程度のパラグラフを一気に入力してしまえるので、その時に読点が入ってこない。しかし音声入力をそこで区切るかというとややそれは短くて、勢いや流れが削がれる印象を受ける。つまりは勿体無い。結果として読点は少なくなる。そしてやや読みづらい文章になる。
ちなみにこの辺は現在の技術水準からくる制限であっていずれ解消される問題でもあるだろう。自分の場合は今はGoogle ChromeのExtensionである「Voice In」というものを使って入力している。これの裏側はどうやらOpenAIのWhisperらしい。
Whisperは現在公開されているものの中でも最高の性能を持つSpeech To Textエンジン(音声をテキストに変換するプログラム)の一つであり、これに問題があるわけではない。ただそれはこと英語においての話であって、句読点をうまく入れてくれるかはまた別問題だ。
「てん」とか「まる」とか言えばそう入力されるはずなのだが(違ったかもしれない)正直それほどうまく入力されない。また音声というのはわりかし脳と直接につながっている感じがして(キーボードに比べて)考えていることがスルスル出てくる。逆に言えば、考えていることの中に「てん」という言葉はないので、思考のリズムがどうにも崩れる。引っかかる。
キーボード入力だと、これは単に年季が違うからだけかもしれないが、句読点は非常に自然に入れることができる。思考とは別に勝手に指が入れている感じ。反復練習の賜物なのかもしれない。そうすると音声でもいつかは自然に入れることができるのかもしれないけど。
そしてもし、自然に「てん」や「まる」と発音できるように自分がなったとしても、プログラムの方は今のところそこまで賢くはない。「。」ではない普通の文章の中の「まる」という単語も「。」に変えるし、一方で文末に句点を入れようと「まる」と発音してもなかなか思い通りには入らない。
エンジンの話になるが、この辺は微妙にmacの純正の音声入力の方が優秀な印象を受ける。昨今の普段使いがVoiceInなためきちんと比較ができていないが、macの音声入力の場合はなんなら勝手に文章の終わりだと判断して句点を入れてくれる時がある。まだ全然完璧じゃないけど。
ただしそうすると、今度は逆に、勝手に入れられて困るようなことも増えてくるだろう。勝手に入れられると消さないといけないしそれも面倒くさい。意味や文章の流れ的に意図してそこに句読点を省きたいような時もあるかもしれないし。
あとは「まる」とかの変換精度も、macの音声入力の方が高い気がする。Whisperもがんばれ
以前このSubstackでもmacの、というか正確には当時はなぜか自分の感覚ではiPhoneでの入力の方が色々精度が高いと感じていて、iPhoneのメモ帳アプリに音声入力で入れて、それをmacの方にコピペするという方法をとっていた時期もそう言えばあったなと思い出した。
今は当時よりはVoiceInの精度が上がっていて(おそらくだが、以前試したときはWhisperがまだ出る前で、内部でエンジンを変えたのではないかと思う)当時よりは今の方が精度が高い印象。また久しぶりにiPhoneなど他の音声入力と比較してみてもいいかもしれない。
などという文章を今日は全てキーボード入力したが、今日は割と時間すぐに書き出すことができて、そして特に手が止まってしまうことはなくスルスルと書くことができている。こういう時はキーボードでもそれなりに文章量が書けるし、そして音声入力よりも幾分かはマシに句読点が入っているので、まあ多少は読みやすい文章になっているだろう。
その辺りは悩ましい問題である。