音声合成Amazon Pollyの読み上げ・テキストスピーチが読み上げ界隈を活性化させる予感

こんにちは。最近発表された、Amazon Pollyという音声合成サービスが気になって最近は夜もまともに寝られません。

というのも、僕が五年ほど前にアプリ開発を作ろうと決心したのも、ネットでいつも読んでいるブログとかニュース記事をiPhoneで読み上げさせて、家事やら運動やら歩いている時に耳でながら聞きしたくてしょうがなかったからなんです。

とにかく自分が使いたいという情熱の赴くままにLisgo(Pocketの記事読み上げ)、Voicepaper(テキスト読み上げ)、音声文庫(青空文庫読み上げ)などを作ったのもあり、音声合成業界のニュースには常に耳ダンボでアンテナ張り巡らせていたんですよね。

正直いって、音声合成の品質って何年も大して変わってないんですよ。僕のアプリに使っている音声エンジンは、iPhoneに組み込むことができるエンジンの中で個人的に一番品質がよいという理由で採用したAcapela社の音声ですが、こちらは何年もアップデートがありません。

それでも、競合が素晴らしい品質のものを出してくるかっていうと、そうでもない状態が長く続いたわけです。

去年あたりから人工知能だなんだのと話題になってきても、心の中では、囲碁や将棋に勝つAIはもういいから、音声読み上げとか音声認識の品質を飛躍的に向上して世の中をぶったまげさせてくれないかなあと思ってました。

そしたら、今回のAmazon Pollyですよ。 AI技術を使った音声読み上げサービス！とか煽ってるけど、音声読み上げなんて一度聞いたら一発で品質がバレるからそんなマーケティングメッセージには騙されないぞと思いつつ試してみました。

とうわけで、iOS標準のボイスオーバー読み上げと、僕のアプリに使ってるアカペラエンジン、Amazon Pollyの日本語読み上げ品質を比べてみた。

iOS標準読み上げ vs アカペラ vs Amazon Polly

アカペラエンジン (Lisgo、Voicepaper、音声文庫に使用）

iOS標準のボイスオーバー読み上げ (Kindleなどで使える)

Amazon Polly

さて、これを聞いて、明らかに違いがわかるというかというと微妙なところなんだけど、Amazon Pollyは結構いいセンいってると思う。もうちょっと音声スピード上げた状態でも聞いてみないと判断しづらいけど、個人的にはこの３つで一番いいんじゃないかなと。

ちなみに、音声読み上げってその音声に慣れているか慣れていないかでも印象が変わってくるし、ある人はiOS標準のボイスオーバーのほうがアカペラよりいいと言うし、ある人は反対のことを言ってたりしてます。

僕は最近もっぱら、Newspicksとかクーリエジャポンの長文記事を何個かテキストにコピペして、Dropbox経由でVoicepaperにぶち込み、ジョギングしながら亀ッチの部屋の記事とかを聞いてるんだけど、こういう用途だと音声の品質は慣れてくると気にならなくなってくるんですよね。むしろ、それ以外の利便性のほうが重要というか。

でも、外国語の学習を目的に、何度も耳で教科書の内容を聞きたいとか、そういう場合はできる限り自然な読み上げを使いたいだろうとは思う。その点、Amazon Pollyは有料Webサービスなので、今後のアップデートで継続的に品質が上がりそうな期待感があるのもいい。

ここ数年、アプリやWebサービスに使えるAPIを持った読み上げサービスに新しい進展はなかったけど、ついに本命っぽいものをAmazonが出してくれたということで、興奮を隠せない。

最近はTaxnoteのAndroid版をコツコツ作っているんだけど、AmazonPollyとかiOSの標準読み上げ使って、Voicepaper2とかLisgo2を作りたくてしょうがなくなってきた。でも、時間は有限だしいったいどうしたらいいのだろうか。

プラットフォームの利便性がイノベーションを活性化させる

Amazonがこういうサードパーティが使いやすいサービスを出すことで、読み上げ系のサービスが今までより作りやすくなるってのが重要なポイントだと思うんですね。

もちろん、今までも頑張って探せばアプリに組み込む音声エンジンとか使えるには使えたんです。でも、それは結構面倒で使いかっても悪い。

Amazon Pollyのように、さくっとAPIで提供してくれて、Webサービスやアプリに今までより圧倒的に手軽に組み込むことができると、読み上げサービスを作る敷居がどっと下がるんですよ。

AmazonAWSの存在が世界中のWebスタートアップの開発スピードを底上げしているだろうし、もっと簡単になるHerokuを使って、僕は最近Taxnoteの自動同期機能を作りました。この、今までより手軽にできるというのが重要。

今までもやろうとすればできたと、それが一気に手軽になったというのは大きな違いなんですよ。これは技術の視点で何ができるかを考えるのではなく、事業者の視点で開発コストと期待できる成果のバランスを考えてみるとわかると思う。

例えば、あるサービスのアイデアがあって、サービスとしてユーザに指示されてなおかつ儲かるという期待値が80ぐらいあるとする。この時、このサービスを開発するのに要するコストが20ぐらいなのと、50ぐらいなのでは、実際にそのサービスを作ろうとするインセンティブが大きく違う。

開発コストが低ければ低いほど、便利なサービスが生まれる可能性が高くなるので、消費者にとってはいいことです。事業者にとっては、ライバルが増える可能性もあるけど、基本的には挑戦がしやすくなるのでメリットのほうが大きい。

Amazon AIでは画像認識をサービスとして提供も始めているらしいし、これからどんどんサービスのアイデアを実現しやすくなってきそうなので、ワクワクしますね。

イノベーションって既存の技術の組み合わせから実現するんだけど、いろいろな技術が組み合わせやすくなり、新しい業種からAPIが提供され始めることで、これからも便利なサービスをどこかの誰かがいろいろ作ってくれそうです。

*参考
テキスト読み上げアプリ Voicepaper誕生秘話
 iPhoneのVoiceOver + Kindleで快適オーディオブック

*家計簿と読み上げのアプリ作ってます。自己紹介と過去ログはこちら。

iOS標準読み上げ vs アカペラ vs Amazon Polly

プラットフォームの利便性がイノベーションを活性化させる

関連