こんにちは。僕は15年前ほど前に、音声読みあげでWebニュースとかブログをながら聞きしたくて読み上げアプリを作り、それきっかけにアプリで生活するまでになってしまった人間です。

そんな自分なので、最新の音声読み上げエンジンが出るたびにその品質を要チェックしてました。たとえば、数年前に出たAmazonPollyとかかなり自然だなあとか、iPhoneの読み上げもどんどん良くなってるなあとか。

そして、最近はChatGPTという化け物みたいに自然なテキストスピーチAPIが出てきまして、英語で聞いたらほぼ人間と変わらんではないかというレベルに驚愕してました。ほんと、案内音声とか簡単に作れちゃう。

このテキストスピーチのAPI、ChatGPTのサイトでは英語のデモは聞けるんだけど、日本語の読み上げはサイトで聞けなかった。しょうがないから、あんま使ったことないPython環境をMacに入れて、実際にAPIを叩いて日本語の音声を読み上げさせてみました。

僕がアプデしてるVoicepaperという読み上げアプリの宣伝文章を読み上げさせつつも、ちゃんと、ChatGPTとiPhoneのテキスト読み上げエンジンを比較してますので興味ある方は見ていただきたい。

比較対象はChatGPTの英語と、iPhoneの音声エンジンの英語(設定からダウンロードできる高品質版)。それに加え、日本語もそれぞれ比較しとります。

結論から言うと、ChatGPTの英語は凄い。本当に自然。数年前に発表されたAmazonPollyが霞むほどナチュラル。抑揚とかがあるから、棒読み感がない。そして、気になる日本語なんだけど、これは英語に比べるとちょっとまだ機械っぽい。なんか、変なところで抑揚つけたりしちゃう。

ただ、ChatGPTの音声APIは英語に最適化されてるらしいので、今後、日本語とか、それぞれの言語に適用されたものが出たら一気によくなっちゃうかもしれない。最近のAI業界の進化は恐ろしいほど早いので、それは来月かもしれないし、数年先かもしれない。

ちなみにですね、これ、なんで調べたかというと、僕が丹精込めてコネコネとアップデートしてるVoicepaperに組み込もこうかなあと思ってたんですよ。iPhoneの純正読み上げエンジンより遥かに良くなるなら。

なので、この動画を作って、幅広く意見を聞きたかったと言うのがあります。いや、これならiPhoneの音声エンジンとあんまり変わらないよっていう人が多いのか、追加でお値段払っても良いからChatGPTの品質で聞きたいわって言う人が多いのか。

音声読み上げエンジンって、最初は違和感かなりあるんだけど、毎日のようにそれでWeb記事やら、書籍やら読み上げて聞いてたら、方言みたいに耳が慣れちゃって、特に違和感がなくなっちゃうんですよ。なので、自分が聞いても、まあ、お金払ってまでChatGPT使うことはないかなあと思ったりする。

ただ、動画や仕事に使う案内音声を音声ファイルとして作成するって言う用途にはいいかもしれない。普段はVoicepaperでiPhoneの音声エンジン使って、音声ファイル作成の時だけChatGPTの品質の良い読み上げ音声を使うとか。ライセンス問題もないし。

ついでに補足すると、ChatGPTのAPIは音声スピードの変更や話者の変更はできるけど、感情のパラメータは現時点では用意されてないです。最近の音声エンジンは、悲しい雰囲気で話すとか、明るい雰囲気で話すとか、感情表現のパラメータがあるのがあるんですよ。凄いですね。

APIを使うから、リアルタイムでどの程度サーバとの遅延があるのかってのも気になるポイントだけど、これはリアルタイムでレスポンス返して、遅延ができるだけしないような仕組みがChatGPTのAPIにはあります。これは検証が必要だけど、実際に組み込むようになったらまた書きたい。

 


*自己紹介と過去ログはこちら