Open JTalkで使用する音響モデルを簡単に自作できるようになりたい

Updated: / Reading time: 2 minutes

以前から、人の音声を簡単にサンプリングして音声合成できないかな? とは考えていました。例えば、声優のたまごのような人の音声を合成して、広く知ってもらえるようなサービスを作ったりできないかな、と考えていました。ただ、音声合成の元データの作り方が分かりませんでした。が、ふとそれっぽい記事を見かけたのでメモします。

参考リンク

HTS-demoというソフトウェアを使うと、Open JTalkで音声合成する元データである音響モデルというものを作成できるようです。ただ、HTS-demoを動作させることが非常に難しいように見えます。これを簡単に使用できるようにするため、Dockerイメージとアプリケーションを作成してみたいと考えています。

おわりに

GitHubリポジトリで作業しています。