ゆうすけ

716 posts
Opens profile photo
ゆうすけ
@yusuke_kizuna
株式会社Titan Intelligence CTO、Kizuna Intelligence CEO。信頼できるAI技術情報を配信していきます。 生成AI/機械学習/Python/C++, 個人的なお仕事のご相談・ご依頼はDMもしくはwebサイトの問い合わせフォームまでお願いします。

ゆうすけ’s posts

Pinned
カワイイドールロボット、kizunaroidシリーズを開発しようと思っています!日本の「萌え」や「かわいい」に寄せたデザインで、動きと音声を使った会話で、親密な関係を築いてくれるロボットです!まずは、50cm以下のロボットを開発しようと思っています!第一号ロボットは東北きりたんと、ずんだもん予
Image
Image
最近、某音声生成サービスが流行っておりますが、弊社も音声合成エンジンを開発を続けております。例えば、数秒の声で学習して、こんな感じの音声が生成できます!将来的には、AITuberさんとかいろいろなところと提携したい! 動くデモ公開まではもう少しお待ちください!
o1めっちゃいいな。Sonnet3.5とかGPT4oレベルだと難しそうだと感じるタスクを投げると、そこそこやってくれることもある。音声合成のためのAI開発を最近してるんだけど、原因わからなかった謎の問題をo1がソースコードから見つけてくれて、めちゃくちゃ助かった...
声質から作れる音声合成エンジン「無音」がバージョン0.2βに上がりました!無料で利用できるデモページは下記の通りです!イントネーションや感情表現が改善しました!実行時間はサーバーの関係もあって少し遅いですが、結構表現力高いのでぜひ使ってください! muon-434711.an.r.appspot.com
0:04
ちなみにこの画面はclaudeのprojects機能を使って超簡単に作りました! フロントエンド、バックエンドのコードとかたくさんknowledgeに突っ込むことでかなり楽に複数ページ作れましたね。
Quote
ゆうすけ
@yusuke_kizuna
こんな感じの画面です! x.com/yusuke_kizuna/…
0:01 / 1:30
新しい日本酒と出会うためのアプリおちょこAIを作り始めました!日本酒の写真や日本酒名から、自分に合いそうか教えてくれる機能があり、新しいお酒に挑戦しやすくなります! 最近、同じ日本酒ばかり飲んでいたり、自分好みの日本酒にまだ出会えていない人におすすめです! ochoko-ai.com
開発中の音声合成エンジン「無音」の開発進捗です! まだまだですが、表現力がだいぶ上がりました〜〜 ちょっと熱い男性風と、お姉さん風です。 #生成AI
The media could not be played.
自分用に作った日常生活に適したエージェントAIをサービス化したいと思っています!イメージはDeep Researchの日常生活版です。超忙しくてもピッタリの余暇を探せるようになります! よかったら、お気に入りお願いします! お手伝いいただける方も募集中です!
つくよみちゃんx長文を合成した事例です。 音声合成には、フリー素材キャラクター「つくよみちゃん」が無料公開している音声データを使用しています。 ■つくよみちゃんコーパス(CV.夢前黎) tyc.rei-yumesaki.net/material/corpu
The media could not be played.
The media could not be played.
Quote
ゆうすけ
@yusuke_kizuna
Embedded video
Embedded video
Embedded video
Embedded video
弊社の音声合成エンジンで、1文学習ではなく、つくよみちゃんの100文コーパスを学習して、より元音声に近づけた事例です。 1文よりも、より元の話し方を反映しやすくなりますし、英語もネイティブ発音からは離れますが、そこそこ話せます。 ---
弊社のMuonLabsの進捗です。感情制御機能を実装中で、感情の制御がより簡単になる予定です。 今の所、同じセリフでもこのように出し分けができます。多少声の質が安定しませんが、改善予定です。 1:感情追加なし 2:怒り追加 3:悲しみ追加
弊社の音声合成エンジンで、1文学習ではなく、つくよみちゃんの100文コーパスを学習して、より元音声に近づけた事例です。 1文よりも、より元の話し方を反映しやすくなりますし、英語もネイティブ発音からは離れますが、そこそこ話せます。 ---
The media could not be played.
The media could not be played.
Apacheライセンスで、Veo3のような音あり動画が生成できるOSS。 github.com/baaivision/MTV CogVideoXベースなので、Veo3ほどの品質ではないけおど、この手法自体は既存の動画生成モデルを拡張できるので、めちゃめちゃ汎用性高い。音と動画の同時生成というより、音に動画を合わせながら生成する感じ。
Image
Quote
Tiezhen WANG
@Xianbao_QIAN
Embedded video
0:04
veo3-ish video + audio generation using open source model Great work MTVCraft! Detailed below:
弊社のTTSエンジン無音では、 合成できる声の幅広さ、合成音声の自然さの2つの能力の高さを目指していきたいと思います!イントネーションの微調整とかの能力は、VOICEVOXやKOEIROINKにおまかせします!多言語対応はElevenlabsさんに任せます!
ノノメンさんが下北沢で生成AIバーを始めました!10/9です!少し遅れますが、私もいます!
Quote
ノノメン YouTube登録1000万
@nonomen_jp
『生成AIバー』が爆誕! ​AI好きと自由に交流できるバーイベントをやります! ​AI好きな店主と話したり、参加者通しで交流できるな場です🙆‍♀️🥃 ▼キャパあるので、興味ある方は参加登録お願いします! lu.ma/mbv39ze8
ByteDanceが開発したPasaを使った論文調査がめっちゃ便利! 「〜論文」と言った感じに、論文の属性を自然言語で指定することで、論文を検索できる。
モデルの学習やデータ処理でお金がどんどん減っていく...笑(1日あたり5万円くらい)そろそろ、スポットインスタンスとか活用して費用圧縮したい感ある...