Open JTalkで使用する音響モデルを簡単に自作できるようになりたい
以前から、人の音声を簡単にサンプリングして音声合成できないかな? とは考えていました。例えば、声優のたまごのような人の音声を合成して、広く知ってもらえるようなサービスを作ったりできないかな、と考えていました。ただ、音声合成の元データの作り方が分かりませんでした。が、ふとそれっぽい記事を見かけたのでメモします。
参考リンク
- 音響モデルの作成 - MMDAgent & Project-NAIP wiki
- HTSの学習用データの作成 - MMDAgent & Project-NAIP wiki
- なんかいろいろしてみます HTS-demoによる自作音響モデルの作り方 その1
- なんかいろいろしてみます HTS-demoによる自作音響モデルの作り方 その2
- なんかいろいろしてみます HTSの話者適応学習のデモの動かし方
- あらゆる現実をすべてねじ曲げて音響モデルを自作したいのでまずは資料集めから — Backstage of Backspace — Medium
HTS-demoというソフトウェアを使うと、Open JTalkで音声合成する元データである音響モデルというものを作成できるようです。ただ、HTS-demoを動作させることが非常に難しいように見えます。これを簡単に使用できるようにするため、Dockerイメージとアプリケーションを作成してみたいと考えています。
おわりに
GitHubリポジトリで作業しています。