＿＿これはPixPrucerさんのチュートリアルの

日本語意訳＋アルファです。
（DeepLの翻訳からふわっと意訳してます）

原文 By PixPrucer (不明な点があればご連絡ください！)

注意：このチュートリアルはノートブックの説明書として読むものではありません。あくまで作成手順のドキュメントです。各章を参照し、模倣することで、あなた自身の手で結果を出すことができます。

このチュートリアルについて手伝ってくれた Spoopy*Ace に感謝します。

作成に助けが必要な人は DIFFSINGERのコミュニティ兼サポートDiscordサーバー（日本語には対応していません。）に参加してみてください！

さらに詳しい説明が欲しい方はこちらの MOTHER DIFFSINGER TUTORIAL （日本語には対応していません。）を参照してください

ダミーの内訳（意訳できない）

さぁ沼に落ちよう！（これで合ってる？）

専門用語辞典

SVS - 「Singing Voice Synthesis（歌声合成）」の略
UTAU - 歌声合成コミュニティで長年使われているフリーの波形合成の歌声合成ソフト
LAB (file) - 音素記号とそのタイミングに関する情報を含むファイル（モノラベル）。
拡張子は「.lab 」、オープンソースの歌声合成の標準フォーマットとして
使用されている。

ステップ 0 - 歌声データベースの作成計画

いきなり作り出すのではなく計画して行うこと！！

PixPrucerの声をもとに説明します。

入れたい言語は？

ポーランド語をメインに、副言語として日本語を入れたいと思いました。

（黒猫大福）辞書ファイルを作成することで音素を組み合わせて別の言語で歌唱することが可能です。混合学習とかする事もできると思います。

どんな音素体系を使いたいですか？標準的なもの？カスタム？

ポーランド語のUTAU音素体系を使いました。作成する中で、私はさらにいくつかの音素を追加して、出来上がった音声モデルにもっと多くの機能を詰め込みました。

（黒猫大福）日本語の音素体系についてはNNSVS（ENUNU）を参照するかOpenJTalkを参照してください。

TXTファイルに音素リストを作っておけば、後でラベリングするときに迷わずに済みます。

（黒猫大福）AIラベリングソフトができたのでラベリング作業は軽くなると思います。

これらの音素はポーランド語のものです。英語、日本語、スペイン語の音素は異なります。

音素セットは何でもかまいませんが、すべての音素がOpenUTAUのDiffSingerのフォンマイザーと互換性があるとは限らないことに注意してください。 [Link to systems here, Prucer]

複数の言語を1つのモデルに収めたい場合は、どの音も互いに被らないようにしてください。
発音が同じ音同士をつなげたり、発音が異なる音同士をつなげたりすることができる。

どのような口調にしたいのか？声優のような口調にするのか、自然な口調にするのか。

ただ自然に歌っているだけで、派手さはないんだ。^^;

ボーカルモード（ボイスカラー）を録音しますか？

ソフトな声、力強い声、荒々しい声、パワフルな声、唸るような声、鞭のような声など、さまざまな声を録音することができます！どの音色をモデルに含めるかは、あなた次第です。

それぞれの声について、「.wav」と「.lab」のサブフォルダを持つ別々のフォルダが必要です。注意してください。

（黒猫大福）声質で音声ファイルを分類するツールがあるようなので常に強く歌ったりしなくて良いのかも

何か特別な癖をつけたいですか？(例えば、特定の音域では意図的にヘッドボイス／ファルセットだけを使い、文脈に即したものにするなど）。

ヘッドボイスだけでなく、チェストボイスやミックスボイスも同じコーパスに収録したので、モデルは使用する声域に応じて発声法を変えます。
しかし、単独で発声法ごとに録音し、ボーカルモード（ボイスカラー）で分割すれば、AIによって発音法を選択させる代わりに、後で別々に選択することができます。この方法で、パワフルなチェストボイスや、非常に低いささやくようなファルセットを操作することができます。

歌いたい曲を選ぶ！

プレイリストを作り、すでに知っているものを追加する！驚くほどたくさん追加できるかもしれない。

後で曲を選別し、歌うのが難しすぎるもの、ボーカルが少ないもの、歌詞が少なく、ほとんど「オー」とか「イェー」とかいうようなものは必ず除外してください。

難しい部分は、低く歌うか、高く歌うか、速く歌うか、遅く歌うか、あるいは全く歌わないかなど、どのように歌うかを計画する！

（黒猫大福）一曲通して歌わず分割して歌うのも良いかも

そして最も重要なこと！セクションを繰り返さないこと。

AIがうまく学習するためには、多様で変化に富んだデータが必要です。

同じコーラスを2度、3度と歌っても、それは繰り返しのパターンなので、モデルにとってあまり有益ではありません。

AIがうまく学習するためには、常に新しいもので「驚かせる」必要がある。

自分でラベリングするかコミッションで行うか

ラベリングは大変で、時間がかかります。1分間のオーディオのラベリングには平均45分かかります。もし時間が足りないと感じたら、私に依頼してください！詳細は下記

オートピッチモデルを作るつもりですか？

オートピッチモデルは、あなたの音声モデルを機能させるために必要なものではなく、入力されたUSTXをあなたの声のスタイルでより自然に解釈するための追加機能です。

この検討のほとんどは、主にコーパスを壊さないか追加機能のためのものですが、それでも前もって検討しておくと便利です。 ~Ace

ステップ 1 - 録音

「私には歌えない」あなたに自身がないだけ ❤️（合ってるのか？）

歌声データベースの最初のステップはデータ収集（歌の録音）である。レコーディング方法は、様々な曲を歌うというもの。これにはUTAUの録音リストも何もない。あなたが選んで録音した曲は、ここであなたの録音リストとして扱うことができます。

コバルトを使って原曲やそのインストゥルメンタルをダウンロードし、レコーディング中のリファレンス・トラックとして使うことをお勧めする。その方がメロディラインやリズムを追いやすい。

（黒猫大福）JPOPやボカロはインストやカラオケ音源があると思うので歌声DBを配布しないのであれば、選択に良いと思う。

録音は数秒から数分まで、どのような長さでも可能です。

余談だが......！ピッチがずれすぎることを心配する必要はありません。DiffSingerはあなた自身の歌い方を入力として学習することができます。
あなたの歌唱のピッチのずれを完全に無視することができます。

オートチューニングやメロディの修正もしないでください。

ピッチシフトのエンジンノイズが入ることで、AIにとって使い勝手が悪くなるだけであり、トレーニングデータのノイズを最小限に抑えたいのです。

オートピッチモデルをトレーニングするつもりであれば、Diffsingerがあなたの歌唱のピッチのずれを自動的に補正するため、事前に録音を修正する必要がなくなります。

また、リバーブは後でクオリティの問題を引き起こす可能性があります。

除去するのも煩わしいので、できれば無音環境で録音しましょう。

洋服でいっぱいのクローゼットや、枕や毛布が壁にかけられた小さな部屋あるいは車の中でも大丈夫です。またマイクのゲインを下げてください。レコーディングでクリップが発生するのは嫌でしょう。

コーパスを完全に準備できるので、使用するソフトはAudacity。

もちろん、他の好きなソフトで録音しても構わないよ。

ステップ 1a - 音声編集

AIは入力データを再現しようと最善を尽くすので、より高品質な結果を得るためには録音をクリーニングする必要がある。

未編集の録音をエクスポートして、他のクリーニング・ソフトウェア、例えばIzotope RXで編集することができます。必ずしもAudacityである必要はないが、コーパスの全工程をそこで行えるのはありがたい。

（黒猫大福）最新版のAudacityではVSTに対応しているのでお持ちのRXでもクリーニングできるよ

私のクリーニングプロセスは以下の通り：

ノイズ除去。まず、録音のミュートされた断片からクリーンなノイズ・プロファイルを取得し、次にクリップ全体に対してノイズ除去を実行する。リダクションを10、感度を2に設定し、エフェクトを3回連続で実行する。

EQ。audacityでは「EQ フィルター曲線」と呼ばれています。ファクトリープリセットの
「スピーチ用低ロールオフ」を選んで、クリップ全体にかけます。

それが終わったら、録音から長い沈黙や醜い部分をトリミングして、データを歌だけに凝縮する。

これで録音は完了です

あとはWAVフォルダに保存して、好きな名前をつけてください。数字でも、スペースなしの小文字の名前でも、その両方の組み合わせでも構いません（特殊文字や日本語は使わないでください）。

エクスポートされたオーディオが「.wav」モノラルで16ビットフォーマットであることを確認してください。

データはほとんど必要なく、2曲（5分）のフルレングスですでにまともなサウンドを出すことができる！

15分、30分、60分など、基本的にできる限り、あるいは望むだけ、さまざまな歌唱量で解決することができる。一般的には、15分の倍数をコーパス数として使用します。

2時間経過後、つまり、音声が最低限安定するものの、より良くはならないボトルネックポイント以降では、データの中にデータベースでカバーされていない新しい事例が含まれていない限り、大幅な品質向上は見られないことに注意しよう。

ステップ 2 - ラベリング

ああ、そうだ、苦しみだ
(でもちょっとリラックスできる苦しみだね。）

この部分は英語と日本語の自動化が可能です。

自動ラベリング用のノートがあります。ここのローカルバージョンと同様である。

（黒猫大福）AIラベンリングで作業を効率化できるかも！AIラベリングノートブックもありますが私はを使いました。 AIラベリングの品質はこちらから確認できます。

多言語対応のヒントはこちら※1※2

歌のサンプルをいくつか集めたら、ラベルを貼り始める時だ。(大苦戦)

データのラベリングは、データベース作成におけるもうひとつの重要なステップだ。これは、あなたが歌うすべての音素の配置をAIに伝えるものです。マーカーが正確に配置されていないと、後でタイミングの問題が発生する可能性があるため、正確であることが重要です。
(正確さのための正確さよりも、「どう機能させたいか」を一貫してラベリングすることのほうが重要だと思う。~Ace）

ラベリングは音声データベースの「プログラミング」です。言い換えれば、その機能は設定方法によって決まります。
(このことを心に留めておいてください!!!音源がどのように振る舞って欲しいか、データにラベルを付けてください:3 ~Ace)

コミュニティでこの作業に主に使われているソフトウェアはvLabelerだ。操作や作業が簡単で、LABフォーマットをネイティブにサポートしている。詳しい使い方はこちらをご覧いただきたいが、ここではこのチュートリアルで使用するNNSVSラベリング機能について大まかに紹介する。

ステップ 2b - vLabeler

UTAによるビデオ

設定はいたって簡単

すべてのパスを対応するフォルダに挿入したら、⚙️ ボタンを押して、データセット内の適切な種類のファイルに対応するフォルダを設定すること：

（黒猫大福）ver1.2.0で最初にデフォルトエントリを設定できるようになったよ。

これでラベリングを始める準備ができた！

もちろん、vLabelerがオーディオ・プロットのレンダリングを終えた後ね

プロジェクトの最初のラベルを[pau]にリネームする。

はさみツールを使って、各音素に対応する発音記号のラベルを付けます。

右クリックで区間を聞き、左クリックでラベルを貼ります、

対応する発音を書き込んでマウスを動かします！

ローマ字の音素セットを使って日本語を表示する方法を紹介しよう。

(ここで表示されるウィンドウは、画面をよりよくキャプチャするために小さくリサイズされていることに注意してください。最高の精度を得るには、ウィンドウをフルスクリーンにすることができます)

注意："ん "はどのような音であっても常に "N "と表示されます。AIは次の子音（基本的には文脈）に基づいて、いつどのように変更するかを知っています。また、"ky "の子音ラベルには "y "の音は含まれず、"k "だけが含まれます。「y」は母音に入る

Arpabet音素セット、英語ラベリングガイドを使用した英語ラベリング

音楽的なフレーズとフレーズの間はすべて[pau]と表示されていることに注目してほしい。音楽用語で言うところの文末の点のようなものです。息継ぎもそこに含まれます！

きっと（kitto）を使った[cl]の使用例

時折、ずさんな発音や文体的な発音もデータベースに含めることができるが、意図する音素をラベル付けする必要がある。ここでは、歌手は日本語の「r」を硬い「r」ではなく、長い柔らかい「l」で発音している。また、「a」には終止形があります。「a」などの母音ラベルには、ポーズの代わりにこれを含める。

語尾の息が非常に長い場合は、「h」つけることができる。

ラベリングが終わったら、メニューの「すべて上書きエクスポート」オプションを使ってすべてのラベルをエクスポートすることができます。ラベルは「lab」フォルダに表示されるはずです。

注意：新しい録音をデータベースに追加するたびに、新しいvLabelerプロジェクトを作成する必要があります。録音リストは更新されません。

ステップ 2a - Audacity

まず、歌トラックの下にラベルトラックを挿入します。ボーカルトラックを複製して、そのスペクトグラムも同時に表示できるようにします。

また、スペクトグラムの設定を変更することで、何が起こっているのかを見やすくすることもできる。これが私の設定だ：

そして今、すべての言語の最初の、そしてグローバルな音素「pau」を最初に置く。

この音素は、音楽のフレーズにおける「間」を表します。

最後に「END」ラベルを置く。これは変換スクリプトに、最後のポーズの長さをどこに置くかを指示します。

そして、徐々に自分の歌声を聞き返しながら、自分で用意した音素リストの中から、音素の頭にマーカーを付けていきます。ラベルは、ラベル欄に発音記号を入力して挿入し、真ん中の点をドラッグして移動させます。

音楽的なフレーズやブレスの吸い込みの最後には、必ず「pau」ラベルを挿入する！

ここでは、今録音したばかりの日本語を、ローマ字の小さな表音セットを使ってラベリングしていく。

フル動画プロセス

この方法の利点は、気に入らないセグメントがあった場合、そのセグメントを削除し、ラベルを一緒に移動することで、ラベルの付いたオーディオの残りの部分との相対的な位置を保つことができることです。

そうか。進捗状況の保存も忘れずに。コーパスのフォルダーに保存してもいいし、プロジェクト専用のフォルダーに保存してもいい。

さて、ラベルをファイルにエクスポートする必要があります。「lab」フォルダにエクスポートします。それが対応するWAVファイルの名前と一致していることを確認します。

そして今、ラベルが必要なフォーマットと一致していることを確認するために、変換スクリプトを使用して変換する必要があります。変換スクリプトはここからダウンロードできる。

以前はここでENDラベルが使えたが、今は削除すること。

ステップ 2c - LabelMakr

LabelMakrはSOFA（歌唱重視の強制アライメントツール）とWhisper（OpenAIの開発した音声認識AI）を利用したlabファイル作成ソフトです。

メリット

簡単にできる
手作業が減る

デメリット

文字起こしに失敗することがある
JPOP、ボカロ等では、ひらがな（カタカナ）、漢字、英語が混ざるので
発音と文字の読みがずれてラベリング精度が他言語より落ちる
修正をしないと出力音声のランダム性が大きくなる

利用されているAIモデルについて

（Windows、Linux専用？）ここからダウンロードできます！

日本語のユーザー向けのパッチはこちら

LabelMakr_v031をダウンロードしてパッチをインストールしてください。

LabelMakrインストール手順

導入は簡単でリリースから最新版をダウンロードして
setup_GPU.bat(またはsetup_CPU.bat)を起動します。

インストールが完了したらrun.batを起動するとこのようになります。
Settingsから日本語に変更できます。一旦閉じてパッチを導入しましょう

パッチインストール手順

リリースからzipファイルをダウンロードしてLabelMakrフォルダの中身を上書きして下さい。

上書きが完了したらrun.batで起動してください

転写タブのコーパスフォルダーを開いて下さい。

ssフォルダーを作成してフォルダ内にwavファイルを配置してください。

転写の言語を「JP」に設定して実行して下さい処理が完了するとtxtファイルが2つ作成されます。

処理が完了したら一度ソフトを閉じて下さい。

.txtファイルまたは_JP.txtファイルの中身が問題ないか確認して下さい。

フレーズが繰り返されたり
[( h a y a o k u r i )] や [( j i m a k u sh i ch o o a r i g a t o o g o z a i m a sh i t a )]といった
文字起こしに失敗してノイズとなるテキストが含まれる場合があります。

文字起こしの修正は手作業になりますがあらかじめ歌詞がわかっている場合は、

まいこさん作のJapanese Lyric Converterを利用してAI文字起こしのステップを簡略化できます。

歌詞と発音がずれている場合があるので聞きながら調整すると良いです。

_JP.txt ファイルの内容を修正したあとはファイル名を _Fixed.txt ファイルに変更して下さい

「転写を実行」を再度行うと _Fixed.txt ファイルの内容から.txtファイルが再度作成されます。

同名のwavファイルとlabファイルのセットが準備できたら、ソフトを起動し直し整置タブを選択します。

画像の設定に合わせてSOFAを実行して下さい。

処理が完了するとモノラベルがhtkフォルダのPhonemeフォルダに作成されます。

同名のwavファイルとlabファイルを次のステップの手順にのとってパッケージしてください。

またラベルを修正する場合は、LABフォルダとWAVフォルダを作成しそれぞれに.labファイル、.wavファイルを入れて

ステップ2bを実行して下さい

ステップ 3 - ラベルチェック

「ラベルを一定」タブを開いて転写の言語を「JP」に設定して実行して下さい。

※有効にできるオプションは連続するラベルの統合、短い「h」ラベルの統合

ラベルチェックはLabelMakrに機能が統合されたため
ステップ 3a,3bの作業は非推奨です。

labbuとはlabファイル(ラベル)の編集用Pythonライブラリです。
ラベリング作業の最終または中間作業になります。

極端に短いラベル間隔と日本語またはカスタム辞書に存在しない音素を確認できます。

ツールはローカルで環境構築する方はこちらからDLしてください。

ノートブックを利用する方はこちら(本家)からアクセスしてください。

ステップ 3a - ローカル実行（非推奨です。）

最初にVSCodeとPythonをPCにインストールして下さい。
Pythonをインストールするときは"Add Python 3.x to PATH"にチェックをいれるのを忘れないように

Pythonは歌声合成の各種ツールに利用されていることが多いです。

また、仮想環境を作成するvenvを利用します。

ソースコードをzipでDLしてドライブ直下に展開(解凍)してください。

gitが使える方はクローンしてください。

展開したフォルダをVSCodeで開いて下さい。

ターミナルタブからターミナルを立ち上げて「python -m venv .env」を実行して仮想環境構築を開始します。

「pip install -r .\requirements.txt」を実行して必要なライブラリを追加します。

デバッグ設定ファイルの作成してください。以下の内容を参考にして設定してください。

[-p]にはラベルファイルが含まれるフォルダを

[-l]にはjapaneseまたはcustomを設定してください。

customの場合は[-cl]に辞書ファイル(custom_language.yaml)のパスを指定してください。

```

"configurations": [

{

"name": "check_labels",

"type": "debugpy",

"request": "launch",

"program": "H:\\labbu\\check_labels.py",

"console": "integratedTerminal",

"args": ["-p","H:\\ColorSplitter-main\\input\\新しいフォルダー","-l","japanese"]

}

]

```

デバッグから実行することで画像のようにレベルチェックが開始され問題があるindexや音素について知らせてくれます。

ステップ 3b - Colab実行（非推奨です。）

上から順番に実行してきます。

Mount Drive and Setup Dependenciesセル

Mount_drive:ドライブのマウントをするとドライブにアップロードしたファイルにアクセスできます。

しかしラベルファイル(.lab)のチェックをするだけなので、ランタイムに接続したあと左のフォルダアイコンから新しくフォルダーを作成して底にファイルをアップロードすることもできます。
（ランタイムにアップロードするとランタイム接続を切ると全てのファイルが消えます。またランタイムへのアップロードはドライブへのアップロードより時間がかかります。）

Import "labbu" module, initialize specific functions and decompress TextGrids.セル

language:japanese
Textgrid_path:ラベルファイルをアップロードしたフォルダのパスを設定します。

フォルダアイコンを右クリックで取得できます。

Japanese TextGrid > Lab convertionセル

output_type:diff

Compress and Exportセル

zipファイルにまとめてくれます。

ステップ 5 - データベースのパッケージング

GoogleColabを使ってモデルをトレーニングするので、データベースをGoogleドライブにパッケージする必要があります。
「Database」という名前のフォルダを作成し、トレーニング用のファイルを保存します。プロジェクトファイルを削除し、すべてのwavファイルとlabファイルを外に置き、wavフォルダとlabフォルダを削除し、オプションでtxtファイルを削除します。また、録音した音声表現が異なるサブフォルダも同様に移動させてから不要なファイルを削除してください。

そして、すべてのフォルダを選択し、ZIP圧縮する。

そして、このZIPファイルをGoogleドライブにアップロードする。これで歌唱コーパスの準備は完了です。

ステップ 6 - Colabトレーニング

トレーニング用のレポはこちら

利用されているAIモデルについて

NSF-HiFiGANボコーダー（License）
上記のライセンスについて

DiffSingerの作成では継承はされないと考えます。

殆どの方はDiffSingerの作成でNSF-HiFiGAN vocoder自体の
改変、複製、ベースに利用していない事

（DiffSingerモデル≠vocoderモデルと考えられる）

そもそもCCはNSF-HiFiGANボコーダーのみのライセンスであること
モデルを利用して作成されたデータ（歌唱DBから作成された学習データ）自体には
著作権が発生しないこと

NSF-HiFiGANボコーダーの学習データの複製ではないことがあげられます。

ファインチューニング（モデル向けに追加学習）したボコーダーを同梱する場合は
ライセンスは継承されるので注意してください

参考元はドキュメンテーション参照

事前学習モデル(License(不明))
ボーカルピッチ推定モデル（rmvpe:License_1,License_2(不明)）

さて、ノートブックをどのように操作するのか？

もちろん、まずはセットアップセルを実行する。

また、Googleがあなたのドライブにアクセスできるようにする必要がある。

ドライブのアクセスを有効にすると左のファイルタブからドライブのフォルダにアクセスできます。
ファイルタブのdriveフォルダを開き目的のフォルダやファイルにアクセスします。

右クリックのメニューからパスをコピーできます。

enable_finetuningはオフに！！！理由は下に

デフォルトの事前学習モデル（default model）に波音リツの歌声データベースが利用規約に沿っていない状態で利用されているようです。

クリーンなモデル作成と波音リツの歌声データベースを守るためにデフォルトモデルの利用はやめましょう。

自前で作成したモデルをDriveに配置してパスを設定して使う分には大丈夫です。

ここで、データベースをランタイムに展開する必要があります。

変更が必要な設定は以下の通り：

data_type: lab + wav (NNSVS format)
data_zip_path: /content/drive/MyDrive/_database.zip [path to your database zip]
estimate_midi_option: True | harvest（ピッチモデルを作らないならFalse）
segment_length: トレーニングのセグメントの長さを秒単位で指定します。デフォルトは15。
max_silence_phoneme_amount: セグメント内の無音部分の数を設定します。短いスニペットの場合は1に設定。

ステップ 6a - Variance

このモデルは、ピッチやタイミングなどのバリアンス・パラメーターを決定する。まずこのモデルが必要です。

設定項目はたくさんありますが、変更する必要があるのは以下の項目です。:

config_type: variance
save_dir: /content/drive/MyDrive/DiffSinger/MyModel_Variance
selected_embed: Tension(お好みで、設定を変更した場合は1から学習が必要です。)
data_aug: true(エラーが発生した場合はfalseに)
pitch_training: True | MelodyEncoder
f0_ext: harvest(お好みで)

Tensorboardは初回のトレーニングでは確認できないので注意してください。

そしてトレーニングに打ち込む。待ちに待ったゲームが始まる。Colabに追い出される前に、できるだけ長くトレーニングをしたい。50kステップを推奨するが、もっと多くてもいいし、少なくてもいい。出来上がったモデルに満足できるかどうかによる。

ステップ 6b - Acoustic

次のように設定を編集します。:

config_type: acoustic
save_dir: /content/drive/MyDrive/DiffSinger/MyModel_Acoustic
selected_embed: Tension
(お好みで、設定を変更した場合は1から学習が必要です。Varianceと揃えてください)
data_aug: true(エラーが発生した場合はfalseに、Varianceと揃えてください)
pitch_training: True | MelodyEncoder(Varianceと揃えてください)
f0_ext: harvest(お好みで、Varianceと揃えてください)

そしてトレーニングに打ち込む。またしても、待ちのゲームが始まる。

ステップ 6c - ONNX

モデルの学習が完了したら、それを展開しやすい形式にエクスポートする必要がある： ONNX

このフォーマットはOpenUTAUでも必要です。

そこでエクスポートセクションでファイルエクスプローラーから

適切な音響と分散の「model_******.ckpt」のパスを変数にコピー＆ペーストし

モデルのエクスポート先のフォルダを指定します。

それが終わったら、いよいよOpenUTAUボイスバンクを作る番だ！いろいろな場所からコピーすることが多いので、すべてのフォルダを開いて準備しておいてください。

処理が終わると、ボイスバンクZIPがあなたのドライブにダウンロードされるのを待っているはずです！

ステップ 7 - ローカルトレーニング

ステップ 8 - OpenUTAUにインストール

ステップ 8a - ボイスバンクのインストール

ボイスバンクをダウンロードしたら、それをOpenUTAUにインストールします。

ソフトを起動し、ツール > シンガーをインストール... と進みます。

ファイルエクスプローラーからボイスバンクを選び、インストールします。

または、メインウィンドウにZipファイルをD&Dしてください。

すでに満足して使っているかもしれないが、突然フォネマイザーのエラーが出る。あるいはレンダリングエラー。あるいは理解できないエラー。そこでOUのログを調べ、自分でボイスバンクを直そうとするか、サーバーに助けを求めることになります。エラーの原因は様々で、修正方法も様々です。

辞書ファイルの中身は音素しか定義されていないためダウンロードしたままでは歌いません。

日本語辞書ファイル(dsdict.yaml)または英語辞書ファイル(dsdict-en.yaml)をダウンロードして。

音源のルートディレクトリおよびサブディレクトリにそれぞれコピーして配置してください。

ステップ 8b - Vocoderインストール

ボコーダーは自作音源向けに追加で作成するか以下のボコーダーを利用してください。

OpenUtau向け公式ボコーダー(ソース) GPUを利用した合成が早い
コミュニティボコーダー CPUを利用した合成が早い

超複雑なステップ a.k.a SECS

そこで、ラベルがすべて正しいかどうかをチェックしたり、データセットを局所的に変換して、オートピッチに適した状態に整えたいとお考えですか？以下はその手順です。

Local Training

データセットの検証

ステップ3までのすべてのステップを行うと、データベースは他のすべてのことができるようになります。フォルダ内のファイルはこのようになっているはずです：

To check your database, download uta’s dataset tools.

Download code ZIP and unzip it.

Then, copy the check_labels.py script from the folder and paste it where your database resides at. Run it, and it should spit out a mislabel list.

The default list is for Japanese, but you can modify it freely to check any phonetic set.

Autopitch ++

Installation

First you want to download tree repos: MakeDiffSinger, Dataset Tools and Uta’s Database Converter.

From the MakeDiffSinger repo, you download the code in a ZIP format

Dataset Tools, download the latest release

You also download the latest release of Uta’s converter

Uzip them in a known folder, best paired together for easy access

Dataset conversion

Once you’ve got your labels ready, you need to convert your dataset to a diffsinger format, from which we will be performing the rest of the steps.

Open the nnsvs_db_converter folder. In the folder, you will find a file called lang.sample.json. Make a copy of it, and modify it accordingly to your label list. By default, it’s configured for Japanese, so if your database has been labelled with Japanese phonemes, there’s no need to change the list.

Here is a language definition file for English

From the nnsvs_db_converter folder, run CMD.

And into the CMD, write the following arguments:

db_converter.py -s 1 -L [name of json file] -m [path to your database]

Correction

Now, we’re going to make a few different operations on the database, so be ready.

First, Open both your database folder and the MakeDiffsinger folders next to each other. In the MakeDiffsinger window, go down to the variance-temp-solution folder. We will be using scripts from there.

Now, we run CMD from the variance-temp-solution folder. The first script we will be using is correct_cents.py. It will make the MIDIs more accurate and will require you to correct less errors.

The command is the following:

correct_cents.py csv [path to your CSV file] [path to the matching WAV files]

Don’t close the CMD once it’s done! We’re going to move onto another script.