メンバー

よしかい X: @yoshikai_man

ようさん X: @ayousanz

シンジ X: @jakusa33

使用したいVRAM

バッチサイズを上げて168GB目一杯使おうと思ってます。バッチサイズを挙げないとおそらくハッカソン期間での作成が難しいため

詳細

音声合成 Style-Bert-VITS2とGPT-SoVITSの事前学習モデル作成を行います。

主に日本語用の事前学習モデルをデータセットYODAS: Youtube-Oriented Dataset for Audio and Speechを使って作成します。

余力があれば、笑い声のデータセットLaughterscape: Large-scale In-the-wild Japanese laughter corpus から笑い声に対応したモデル

Tohoku folktale corpus (東北地方民話コーパス)のコーパスから東北地方方言に対応したモデルを作ります。

全てのモデルはのMITライセンスでの公開で、作成過程も何らかの形で公開したいと考えています。