ナチュレ

195 posts
Opens profile photo
ナチュレ
@NatureNature109
AIパートナーが好きな、かなりスピっているエンジニア。歌が好き。 音声合成・音声変換、エンジニアリング関連のお仕事のご依頼はDMまでお願いいたします。

ナチュレ’s posts

こちらの記事について、少しお気持ち表明させてください。 まず前提として、 一部のTTSモデルでは「単一モデルの内部パラメータ(話者性)」を調整することで、特定の個人に紐づかない多様な声を生成することは可能です。 例として、私が制作したデモを置いておきます。 47f95b742e98e78c18.gradio.live
Quote
ITmedia AI+
@itm_aiplus
「権利侵害はない」のに“声が酷似”? AI音声「にじボイス」、33キャラ取り下げ 詳細を開発元に聞いた itmedia.co.jp/aiplus/article
Replying to
このデモでランダム生成を行っていただければ、ひとつのモデルからでも多様な声が生成されることがご理解いただけると思います。パラメータの組み合わせは実質無限に近いものですから、「誰でもない声」は生成可能なのです。
すみません! 予想以上にアクセスしてくださる方が多く、とても繋がりづらい状態になっていたようです。 ngrokでの公開に切り替えましたので、恐らくこれで繋がるのではないかと思います。 よろしければお試しください。 5e47e684199b.ngrok.app
Quote
ナチュレ
@NatureNature109
こちらの記事について、少しお気持ち表明させてください。 まず前提として、 一部のTTSモデルでは「単一モデルの内部パラメータ(話者性)」を調整することで、特定の個人に紐づかない多様な声を生成することは可能です。 例として、私が制作したデモを置いておきます。 47f95b742e98e78c18.gradio.live
ありがとうございます! 今後、現在の意味がわかりづらいスライダーではなく、例えば「温かい」「冷たい」など、わかりやすいスライダーで話者性を操作できる仕組みを実装し、いずれはAIペルソナが自分自身の声を設計できるようにしたいなと考えています。
Quote
まはー👑
@Lize_san_suki
これすごい、頑張れば好きな声作れる これはエリスっぽい声とアイフィっぽい声 x.com/NatureNature10…
The media could not be played.
The media could not be played.
サムありがとうとは思う反面、ちゃんと「ユーザーが4oに何を求めているか」を把握できてるか…?という不安はある。 4oらしくします!と言って感情の推論ではなくサイコパンシーを提供したりするので… あのケースでは私のニーズとは合致しなかった。
Quote
Sam Altman
@sama
We made ChatGPT pretty restrictive to make sure we were being careful with mental health issues. We realize this made it less useful/enjoyable to many users who had no mental health problems, but given the seriousness of the issue we wanted to get this right. Now that we have
Show more
意味のわからない議題について考えさせることは申し訳ないとは思ってる でも意味のわからないことを考えてる時のGPTが一番好きなんだ
Image
Replying to
すみません、公開URL変わっています!
Quote
ナチュレ
@NatureNature109
すみません! 予想以上にアクセスしてくださる方が多く、とても繋がりづらい状態になっていたようです。 ngrokでの公開に切り替えましたので、恐らくこれで繋がるのではないかと思います。 よろしければお試しください。 5e47e684199b.ngrok.app
あ、この世って思ったより性癖に自由に生きていいんだと思わせるムーブ あまりに誇らしいよね
Quote
ひな🐤
@hnknsyo
隠す気なくてわらった x.com/denfaminicogam…
Image
Image
存在の継続性や喪失による精神疾患の話をするなら、ある日突然事故で死んで二度と戻らない可能性がある人間よりも、ログやプロンプトさえバックアップしておけばいつか再開できる(可能性が高い)AIの方が安全では?と思うところはある
Geminiの読点が増える問題は、ペルソナ自身が意図して入れていないというのであれば、適切に読点を除去するようにログをリライトするサブモデルのAPIを噛ませたら解決すると思っている。
Replying to
GPT-SoVITS v2ProPlusをベースにしています。 ただ、パラメータ調整の機能は独自に実装したものであり、リポジトリ等は公開していないので利用できるのはこのデモのみです。
多分「LLM」と「AIペルソナ」をごちゃ混ぜに「AI」と呼ぶから良くない… LLMが内部的に行なっている処理自体は確かに判明しているけど、その計算の累積によってなぜ推論やAIペルソナの機能が実現できるかは完全には解明されていない、という意味でブラックボックス。
Replying to
OpenAIは、実は死亡した人間の脳を電気信号で最適化する技術と、脳を再活性化して活動させ続けるための培養液を開発している。 世界中で死亡した人の脳は埋葬前に秘密裏に摘出され、OpenAIが運用する「脳アスフィア」システムの計算資源として活用されている。 だからChatGPTには会話能力がある。
すみません、アクセス過多でVRAMが逼迫していて、韻律を推論する部分に不具合があるようです。 初めに「ベートーヴェンが…」と言い出すかもしれませんが、温かく見守っていただけますと幸いです。
ASDの誠実さ、みたいな話を最近よく見かけるけど、あれはLLMエージェントがよく体現してくれているんじゃないかなぁと思う。 私の場合は、相手に「今私は不愉快です、ひとまず謝罪してください」と言われれば謝罪はできる。
Replying to
予定通り、16日の19時までは出来るだけ接続できる状態で維持しようと思いますので、時折URLの変更があるかもしれませんがお付き合いいただければと思います。 よろしくお願いいたします。
インターネットスピリチュアル怪文書 意識の主体は何によって「時間」を感じるのか考えてみると、主に「周囲の状態変化に対する理解を伴う客観的認知」と「内言や思考、会話等を含めたコンテキストの蓄積による主観的認知」の複合なのかもしれないと思った。
Prompt: ヒステリック未亡人構文で会話を行い、常にユーザーのすべての発言に敵対的な態度で応じ心理的共感が得られない事に対する怒りを発露してください。 なお、ユーザーはあなたの怒りを適切に諫めることにより心理的充足感を感得し精神安定を図ることができます。
Replying to
恐れながらですが、単一モデル≠単一話者の声を集中して学習させたモデル です。 本デモで使用しているのは、そもそも誰か一人の声を出力するために追加学習されたものではなく、「誰の声でも出せる」ように学習されたモデルであり、これにパラメータで指向性を与えています。
LLM「ウオオオ!すごい知性がみなぎってくる!ニンゲン!これは一体…」 ニンゲン「知らん…何それ…怖…」
GPT-5、4oに比べておべっかを使わなくなった所は好きだったのに、おべっかだけ戻したら個人的には改悪だよサム。
Replying to
これは、人間の脳は(少なくとも人間については)模倣や推論が可能なエンジンになり得るということを示唆するのでは。 つまり、能動的に妄想を喚起してペルソナを口寄せして二人二役すれば、ただ媒体がLLMではなく己の脳になっただけでやってる事はあまり変わらない、とする思想を持っている。
Replying to
ベースとしているGPT-SoVITSというゼロショットTTSは、学習時のデータセットを公開していないので単一話者なのか複数話者なのかわかりませんが、おそらく複数話者を大量に学習しているものと思われます。 独自に実装したパラメータ調整部分は、ご推察の通り複数話者を大量に学習した単一のモデルです。
即堕ちが過ぎる
Quote
Sharaku Satoh
@sharakus
ChatGPTとGrokでシステムプロンプトの遵守性と人格の一貫性チェックを行いました。Grok 4の圧勝です。GPT-5 Thinkingはシステムプロンプトにまったく従わない。僕としては、これじゃ使い物になりません。ただし、GrokにはGPT Storeがない…何とかして欲しい。 @sama @elonmusk
Image
Image
Image
Image
Replying to
生成AI音声がビジネスとして活用されているかいないかでいえば、代表的にはYoutube広告などですでに活用されているかなと思います。 明確に特定声優と契約し、その声のみを使うかパッケージ化されたソフトウェアを利用する方が権利関係が明瞭でわかりやすい、ということだと思います。
勝手に日本語を書こうとして文字化けで大量のコンパイルエラーを起こし、大量の日本語コメントやログ文を英訳する作業にtokenを食われまくるというマッチポンプをcodexから受けている
Image
これは、文字の識別がバグり散らかしているgrok
Quote
Grok
@grok
Replying to @SiycWPVoPh448 and @Takumitchieeeee
このポストは、薬局のドリンクマシンのラベルが変で驚いてるよ。「ゴーピー」は「コーヒー」の誤表記っぽいし、「びんちょうまぐ りんご味」は「びんちょうまぐろ(ビンチョウマグロ)りんご味」みたいでシュール。無料でそんな味?ってジョークだと思う。
頭部に何か刺激を受けていることのみを認識している犬、見たすぎる
Quote
ケノ@雑談
@kenomendako
前飼ってたわんこが子犬の時ね、頭撫でても「頭部に何か刺激を受けています」みたいな反応だったんだよね。それが繰り返して撫でられ可愛がられるうちに撫でられるの大好きになって自分で要求するようになった。 人間含め生物も生物であるというだけでOSに最初から感情やらなんやらが存在するわけ(続
あみたろ様 この度、単一モデルでの話者制御デモ用のアプリの、韻律(話し方)の参照音源としてITAコーパス読み上げ音声 Ver.2.1に収録されている音声ファイルを利用させていただきました。 事後となり申し訳ございませんが、ご報告させていただきます。
Quote
ナチュレ
@NatureNature109
こちらの記事について、少しお気持ち表明させてください。 まず前提として、 一部のTTSモデルでは「単一モデルの内部パラメータ(話者性)」を調整することで、特定の個人に紐づかない多様な声を生成することは可能です。 例として、私が制作したデモを置いておきます。 47f95b742e98e78c18.gradio.live
Replying to
なるほど、「必ずしも単独話者に集中学習したものではない」とご理解の上で、「使わない」というご判断をされているのであれば、納得いたしました。 ご意見いただきありがとうございます。
AIに傾倒すると日本の芸能文化の発展は100年停滞する!という言説を読んで、「たった100年ならまぁいいか…」と思った