AIと音声認識の進化の記事を読んでたら、試しに音声認識で文章入力してみようと思いました。そこで、iOS9のメモアプリを使ってブログを書いてみた。

記事中でも書いてるけど、一番の利点は圧倒的な入力スピードと寝転びながらできること。

すごいダラダラした文章になって、段落分けもちゃんとしてないけど、あえて、誤字脱字はそのままにしてみて、文章の構成や整理もしないほうがどんなもんかがわかりやすいと思ったので、そのままにしてみた。

ここからが音声認識で書いた今回の記事。
————–

前々から興味があって、何回も挑戦してはやっぱりこれは駄目だな、小さい子キーボードで打ったほうがいいわと思って断念していた音声認識での文章を執筆をもう一回試してみる。

というのも、僕は文章を書くのが結構好きなんだけど、実際に文章書くのはやっぱりめんどくさくてしょうがないからなかなかできない。なかなかできないから、本当に気が向いたり、よしやるぞ!と、気合を入れて作業にかからないとなかなか進まないのは問題だったからだ。

でも、最近はAIの進化が凄まじいと言われて久しいし、それなら音声認識でちょっと文章執筆をもうちょっとテストし直してみようかと思った次第です。そこで、実際にやってみて、音声認識での文章を執筆の良い点や悪い点をちょっと考えてみたい。もちろん、この文章は全部音声認識で書いている。

まず、前回のiOS 8と違って今のiOS 9はめちゃくちゃ音声認識が上達している気がする。それはiOS 9生ときにすぐに気づいた。だから、次のiOSではもっともっと認識精度は上がっていてかなり使えるようになるかなと。期待している。

まず第一に音声認識で文章を執筆をするという利点は、寝ながらとか姿勢を気にしなくて良いと言うことだった。例えば、iPadを持ってお布団で寝転びながら本本とかネットを読んでいるとする。そんな時に、あるアイデアが思いついて、僕はそういうアイデアが思いついた時は文章を書きながらあーでもないこーでもないと、推敲しながら考えるのが、良いと思っているのだけれどもこれがすごくやりやすい。

だって、お布団の中で寝転んでいるときにさー文章書いてみるかってなると、まずMacを開いてOSを起動して、キーボード打つと言う姿勢を立て直さないといけないからです。その姿勢を立て直すというのが結構心理的な障壁になって、こんなちっちゃなことなのねまぁめんどくさいからまた今度にするかとなる。そして、その今度は二度と来ないのである。という意味で、どんな姿勢でも音声認識で一生執筆ができるっていうのは、これは想像もししてなかった素敵なことだなと考え直された。

次の利点としては、何といっても文章を書くのに比べて音声認識で文章を執筆させると、文書作成の速度がめちゃくちゃ早い。これはもうほんとに、鈍行列車と新幹線の違い位生産性が違うかもしれない。今までは、その利点を上回る音声認識精度の低さと言うデメリットがあって、やっぱだめだこれはと思いいつもまだまだだなと諦めてたんだけど、最近のレベルではメリットは上回り初めて来たかもと思った。

僕は日本人なので日本語で音声認識を使っているけれども、もしかすると英語だとはるかに精度が高いのかもしれない。何故かと言うと、日本語に比べて英語はもっと単純な言語なので、機械といつも相性が良いから。OCRとかでも日本語と英語の生徒の沢全然違ってて、英語ならほぼ100%の精度で認識できるのでも、日本語は漢字やらいろいろあって本当に押し合うの精度はなかなか100%にはならない。

もともと、この文章を書こうと思った理由は、この英語で音声認識を使えると言う英語ネイティブの人と他の言語のネイティブの人でこれからのAI時代、文章を執筆の生産性の違いが大きくなるんじゃないかと言う仮説を思いついたからでありました。つまり、英語ネイティブの人が英語で音声認識を使えるともうほぼ100%の精度で認識してくれるからガンガン使えるんだけど、日本語とかだったらまだまだだから英語ネイティブの人に比べてプロダクティビティーが全然変わってきてすごくそんなんじゃないかなと思ったけれども、実際に日本語で音声認識を試してみたら日本語でも10分性能上がってるからそこまで心配することないかなと思い、音声認識での執筆のメリットデメリットについて書いてみるかと方向転換したのでありました。

今書いてて思うけどこの音声認識を使った文章つのメリットのやっぱり大きな店は、圧倒的なスピードである。これは最初なんだかゆっくり音声認識を使うけど、慣れてくると結構の早口でも対応してくれるというのがわかってきてどんどん早口でしゃべるようになる。それでも、結構ちゃんと認識してくれて文章を作成していってくれるのでこれはかなり自分でタイピングするに比べて速くなる。最近では日本語のタイピングでも自動的に漢字変換をしてくれるような機能があったりもするけど、この音声認識だったらもう完全に自動的に漢字変換だし、何よりたちタイピングいくら上のように早くてもこの音声認識のスピードには全くはがたたない位スピードが違う。

単純な文章入力と言う形で考えると、今まで1,200字入力するのに1時間位かかったとすると、音声認識で入力したら多分半分以下のスピードで入力ができると思う。もしかしたら3分の1位かも。

ここまで音声認識のメリットは、キーボードの前で姿勢を正さないといけないことと、圧倒的な入力スピードだと書いてきました。次に音声入力のデメリットについて書いてみます。

まず第一に、音声入力で文章を執筆していくと、機会に分かりやすい言葉で話さないといけないので、独特の文章、例えば村上春樹のような言い回しで文章書きたいとか、自分の色である方言を使ったり、いろいろな書き方で文章を作成すると言うことが難しくなる。将来的には可能になるのかもしれないけど、ちょっと変わった文章の書き方をすると機会が認識してくれない確率があるので、どうしても標準語で一般的な表現方法を使うようになる。つまり、小さな話の面白さとか、その人独特の表現とかを使いにくくなるのでここが何気にでかいデメリットかもしれない。

もう一つのデメリットとしては、やっぱり音声認識もまだまだ完璧ではないので文章が細く間違っていて修正しないといけない点が出てきてそこがめんどくさい。でも、この制度はどんどんでし上がっていくだろうし、実は現在でも、まずは音声認識でチャット入力していき、後から何かフィルターみたいなツールを使っていっぱつで文章をある程度まで修正したりするやり方があるかもしれない。これも英語を使って入力したり修正したりするのははるかに簡単にできるんだろうと思う。

ここまで音声認識で書いてきて思ったけど、小さなデメリットとしてはずっと喋ってると喉が渇いてちょっと疲れる。そしてもちろん、これは家1人じゃないとできない。つまりカフェとかこうワーキングスペースではできない。

さて、ここまで全部iPadを使って標準のメモアプリで音声入力でダラダラと入力してきたけど、見返してみると相当な量になっている。文章も、キーボードで売っている時に比べて無駄にだらだらと長いし、細かい誤字が目立つ。でも、キーボードでここまで長い文章書くと相当な時間と体力が必要なんだけど、音声入力だと入力スピードは速いし、キーボードでの入力に比べて体力の消耗は相当低いなと感じました。

これは、まず音声でざっとたくさん入力してから、文章を修正したり脱字を修正したりするやり方をもうちょっと研究してみようかなという気になった。


*確定申告を楽にするTaxnoteなど作ってます。自己紹介はこちら。プログラマもゆる募