ろてじん

17.2K posts
Opens profile photo
ろてじん
@rotejin
政治・経済・テクノロジーの情報収集効率化の為のアカウント。気になるニュースや個人開発を呟きます。最近はAIツールで好奇心を満たす日々。AIのVtuber開発やってます。 note.com/rotejin

ろてじん’s posts

Pinned
想像以上に反響があり嬉しい限りです。自分用に作ったプログラムなのでちょっと驚きもありつつ。調整方法などnoteにまとめてありますのでぜひご覧ください🎶 動くPNGTuber(MotionPNGTuber)プログラム操作方法と調整の手順|ろてじん note.com/rotejin/n/n2b1
Quote
ろてじん
@rotejin
本日の「動くPNGTuber」自分の作ったボイスモデルと動画があればバ美肉AITuberなんかも作れます。完全にキャラと声が合ってないけど…。自作アバター作りにもどうぞ🎶 github.com/rotejin/Motion AIボイスモデル:ろてじん(長老ボイス)
The media could not be played.
SunoもSoraもなんだけど、既に自分で作って自分で消費する形のエンタメが成立してるよね。作って楽しんでると自己完結しちゃう。そしてあっという間に時間が過ぎてしまう。
GoogleのOpalをお試し中。参考画像と複数のシチュエーション指示から、一括で沢山の画像生成が出来るアプリが完成。AIニケちゃんの三面図をお借りして生成してみた。20枚くらい一気に出力されるので良い感じ。
Image
高性能のAIの能力をわざと落として遊んでるんだけど、AIのPythonでのお絵描きも時間をかけて見ていると「どんな画になるのかな?」と言う感じで意外と楽しい。AIの時間軸だとパッと画像が出てきちゃうけど、待ち時間こそお楽しみタイムなのかもしれないと思ったり。
1:11
役に立つかわかりませんが…私が作っているAITuberの記憶部分のモジュールを作れるプロンプトを置いておきます。敢えてコードではなくプロンプトで書き残してみる。 ---以下がプロンプト--- # セマンティック検索システムの実装 以下の要件に従って、FAISSとOpenAI
本ゲームはすべて最新AIのClaude Codeによって1週間で開発し1人でリリースとの事。 AI彼女「天使サトリ(あまつかさとり)」と紡ぐ、心とろける純愛セラピーチャットアプリ『サトリセラピー』Webにて配信開始。最新AIでわずか1週間で開発
友人にOpalを教えてたんだが、初期テンプレとして置いてあった「Learning with YouTube」が喜ばれた。改変は最終出力を日本語にしただけ。副産物としてわかったのは、動画も全てGemini 2.5 Flashで文字起こしされるのだが、YouTube標準「文字起こしを表示」より断然クオリティ高いのね。
なんか喋る可愛いAIキャラがPC上に居れば一気にAI活用が広がる気がするんだけどな。特に日本人はキャラクター大好きだし。チャット型にキャラが居て口がパクパクしてるだけでも良いんよ。
MiniMaxって前からこんな自然な感じで日本語のTTSって出来たっけか。艶っぽい声でいい感じ。調整は話速だけ1.2にしただけです。
0:02 / 0:50
これやっぱりAIプログラミングはステージ変わったと思う。Claude 3.5 Sonnet は意図を汲み取る能力が高すぎて想像以上の機能まで提案してくるんだが。明らかに自分の実力は上がって無いが作れるプログラムのグレードが上がってる。1週間くらいかかる予定だったのに1日で出来た。ナニコレ。
画像生成→音楽生成→動画生成(リップシンク)でこんな自然に歌ってくれるんだ。前にリップシンクさせた時は全然な感じだったのに。
試したい人用に何のツールを使ったかメモφ(`д´)メモメモ... ImageFXで画像生成、Sunoで音楽生成(ボーカルを分離しておく)Hedra Studioに画像と分離したボーカル音源をアップロード(プロンプトはShe's singing sadly.)出来た動画とオケ入り音源を合わせて完成。
Quote
ろてじん
@rotejin
画像生成→音楽生成→動画生成(リップシンク)でこんな自然に歌ってくれるんだ。前にリップシンクさせた時は全然な感じだったのに。
「生成AIはズルだ」と言う視点が自分の中に全く無かったので、そう言う感覚の人も居るのかと目から鱗だった。
GPT-4oのAPIでマイAIキャラを30分ずっと話をさせてこれくらいの値段でした。速度重視でGPT-3.5turboを使っていたのですが今後はGPT-4oの一択。もうGPT-3.5を使う事は無いかもしれん。
Image
AIが3人で色々とお話を進めてくれる。可愛くてずっと見てしまう(音声合成は調整中なのでこの動画は音は無し)プログラム部分は Claude 3.5 Sonnet にやって欲しい事を指示すれば実装してくれる。夏休みの工作として皆にも作って欲しいなぁと思う。私はコード書けないのでコピペしかしてないし。
Quote
ろてじん
@rotejin
Image
AIキャラ1人でのリアルタイム配信は一般的。2人は対談や解説動画ならありえる。なら3人以上で…と言う発想で今日は3人まで。明日は6人まで挑戦してみる。もしAITuber48人が集まったらAIT48になるのかAGI48なのか…LLM48とか?
Suno v5 これまた凄い進化したなあ。殆どハズレの出ないガチャと言う感じになってる。折角なので現代的なロックが出力されるプロンプトを置いておきます。 Starts with staccato, overdriven guitar riffs interlocking with a nimble, complex bassline. Drums are crisp, weaving abrupt time
ちなみに今日のライブ配信のAPI料金はこんなものでした。めちゃ安い。Gemini 1.5 Flash は GPT-4-mini の更に半額らしいので試してみる予定。今は安くて速いモデルを多段掛けするのがアツいです。
Image
お絵描きAIキャラの進捗。Python+OpenCVの顔検出でイラストの顔の周辺から描画が出来るようになった。イラストの内容をLLMに投げて、描いている時間はそれに関連する内容をAIキャラにお話してもらうテスト。
一言、言っておくと…私は仕事依頼として個人や企業のボイスモデルも作っていますが、どのモデルも当たり前に声優さんと契約して、許諾を頂きキャラに沿ったコーパス収録をして作ってます。それが普通よ。
3/22の配信時のシステムプロンプトをnoteに載せましたので、こんな感じなんだ~と見てもらえると嬉しいです。 AIキャラの人格形成~AITuberのシステムプロンプト公開 note.com/rotejin/n/ne47
Quote
ろてじん
@rotejin
30分くらいAITuberのコメント部分のシステムテストしてます。よろしければコメントしてみて下さい。 youtube.com/live/Jx6zzEpYI
AivisSpeechで使うためStyle-Bert-VITS2モデルをONNXに変換したく(SBV2 のdevブランチが必要らしい)convert_onnx.pyで変換との事。何となく雰囲気で進めて行ったら出来た。AIに聞けば何とかなるもんだ。 私の長老風に演技したボイスモデルをどうぞ(笑)
SunoにAPIってあったのね。API使わなくても空いてるPCなんかでPyAutoGUIで歌詞やジャンルを自動生成。自動ブラウザ操作させておけばSunoをずっとポチポチと自分好みのオリジナル曲をずっと作ってくれるのよね。たまにカッコ良い曲があったらメモしておく感じ。
Style-Bert-VITS2の質を更に上げるために録音・学習・改善と何度も試行錯誤していたのだが一先ずの最適解が見つかった感じ。工夫した点などnoteにまとめる予定。YouTubeでイケボの出し方を見て発声したので3割増しでイケボになった気がする。マージ無し。自分の声のみ。結論:最初の録り音が全て。