GitHub

🔔 お知らせ
✨ 既存の .aivm/.aivmx のメタデータ(UUID、アイコンなど)はそのままに、モデルデータだけを差し替えられるようになりました!
「各ファイルから新規生成」では新しいモデル UUID・話者 UUID が自動的に作成されますが、
「既存の .aivm/.aivmx ファイルのメタデータを編集」では元の UUID がそのまま保持されます。
AivisSpeech や AivisHub でも、メタデータ編集・モデルデータ差し替えを行う前と同一の音声合成モデルとして認識されます。
🎙️ PC 上の AivisSpeech と連携して、ボイスサンプルを一括生成できるようになりました!
複数のテキストを入力して、音声合成モデル内のすべての話者・スタイルのボイスサンプルを一度に生成できます。
利用するには、あらかじめこの PC で AivisSpeech を起動しておく必要があります。 今までボイスサンプルを作るのが面倒でメタデータに設定していなかったという方も、ぜひ一度お試しください!
🔄 ボイスサンプルが WAV から M4A (AAC) 形式に自動変換されるようになりました!
WAV → M4A への変換により、生成後のモデルサイズが最大 10MB 以上削減されています!
💾 以前生成した .aivm/.aivmx ファイルを「既存の .aivm/.aivmx ファイルのメタデータを編集」で選択するだけで、
ボイスサンプルが自動的に WAV から M4A (AAC) 形式に変換されるようになりました!

モデルサイズを簡単に削減できますので、以前音声合成モデルを制作された方もぜひ一度お試しください!🙏
⚠️ Style-Bert-VITS2 で作成した Safetensors モデルを ONNX に変換する機能はもうしばらくお待ちください!8月中に実装予定です。

このサイトでは、AivisSpeechAivis Cloud API で使える AI 音声合成モデルファイル (AIVM / AIVMX) を、簡単に作成・編集できます。

AIVM (Aivis Voice Model) / AIVMX (Aivis Voice Model for ONNX) は、学習済みモデル・ハイパーパラメータ・スタイルベクトル・話者メタデータ(名前・概要・ライセンス・アイコン・ボイスサンプル など)を 1 つのファイルにギュッとまとめた、AI 音声合成モデル用オープンファイルフォーマットです。

この AIVM Generator では、ブラウザ上の GUI で AIVM / AIVMX ファイルを生成・編集できます。
もちろん、既存の AIVM / AIVMX ファイル内の AIVM メタデータの確認・編集にも対応しています。
すべての処理はブラウザ上で行われます。入力情報がサーバーにアップロードされることはありません。

aivmlib / aivmlib-web では、AIVM / AIVMX ファイル内のメタデータを読み書きするための Python / JavaScript (Web) 向けユーティリティライブラリを提供しています。詳しくは AIVM Specification をご参照ください。

1. ファイル選択

ファイル選択フォームへのドラッグ&ドロップ、またはクリックでファイルを選択できます。
現時点では、Style-Bert-VITS2 で作成した音声合成モデルにのみ対応しています。

AIVM / AIVMX ファイルを生成するには、Safetensors (→ AIVM) 形式のモデルファイルだけでなく、ONNX (→ AIVMX) 形式のモデルファイルも必要です。
AIVM / AIVMX ファイルのメタデータの整合性を保つため、両方のファイルを同時に生成・編集する仕様となっています。

Style-Bert-VITS2 で作成した Safetensors モデルはあるが、ONNX モデルをお持ちでない場合、下のフォームからかんたんに変換できます。
「変換開始」ボタンを押すと、モデルファイルが変換サーバーに送信され、変換処理が始まります。変換には数分程度かかります。
変換が完了すると、ONNX モデルが自動的にダウンロードされます。変換後にサーバー上のファイルは直ちに削除されますので、ご安心ください。
※現在開発中につきまだ動作しません(2025年8月中に実装予定)。今すぐ Style-Bert-VITS2 で作成したモデルを ONNX に変換したい方は最新の dev ブランチに切り替えた上で こちらの ONNX 変換スクリプト をご利用ください(デベロッパー向け)。

2. メタデータ編集

ここで設定したメタデータは、AIVM / AIVMX ファイル内に埋め込まれる AIVM マニフェスト に反映されます。

音声合成モデル・話者の UUID は自動生成されます。再度 AIVM / AIVMX ファイルのメタデータを編集しても UUID は変更されません。

制作者名には npm package.json の "author", "contributors" に指定できるもの と同じ書式を利用できます。
例: "John Doe" / "Jane Doe <jane.doe@example.com>" / "John Doe <john.doe@example.com> (https://example.com)"
ACML (Aivis Common Model License) のライセンス文を確認する
ACML / ACML-NC は、音声合成モデルの自由な利用を促進しながら、制作者と利用者の双方にとって安心して活用できる環境を実現することを目指して策定されたライセンスです。
同じ音声合成モデルを更新する際は、バージョンを上げることを推奨します。SemVer 2.0 形式のバージョン を入力してください。
ボイスサンプル

3つほどボイスサンプルを追加しておくことを推奨します。 このノーマルスタイルのボイスサンプルはこの話者全体のボイスサンプルとしても使われます。

3. AIVM / AIVMX ファイルを生成

AivisSpeech での音声合成には AIVMX (.aivmx) 形式を、モデルミックスや開発には AIVM (.aivm) 形式をご利用ください。

  • AIVM (.aivm): モデルミックスによる新しい声質の作成やファインチューニングが可能な形式です。
    • おもに NVIDIA GPU での利用に特化しています。(PyTorch + Safetensors モデル)
    • GPU で高速に音声合成を行うため、Aivis Cloud API の内部では AIVM ファイルを使用しています。
  • AIVMX (.aivmx): より多くの環境で音声合成を実行できる形式です。
    • CPU だけでも快適に音声合成を実行できます。やろうと思えば Web ブラウザでも動かせます。(ONNX モデル)
    • Windows では AMD Radeon / Intel Arc GPU でも高速に動作します。
    • AivisSpeech はインストールサイズを削減するため、AIVMX ファイルにのみ対応しています。