(cache)Zhengyi Wang on X: "🚀 Introducing ShapeLLM-Omni, a 3D-native multimodal large language model finetuned from Qwen2.5-VL-7B. It builds on voxel-based 3D VQVAE and a 2.56M-dialogue 3D-Alpaca dataset, enabling 4 tasks: text/image-to-3D, 3D comprehension and editing. Code, model, data open-sourced! https://t.co/FzuQQpDYSR" / X

Introducing ShapeLLM-Omni, a 3D-native multimodal large language model finetuned from Qwen2.5-VL-7B. It builds on voxel-based 3D VQVAE and a 2.56M-dialogue 3D-Alpaca dataset, enabling 4 tasks: text/image-to-3D, 3D comprehension and editing. Code, model, data open-sourced!

0:42

1:49 PM · Jun 5, 2025

4,861

Views

Post

Conversation