概述
具身智能的发展离不开高质量、多样化的可交互3D仿真环境。为突破传统构建方式的瓶颈,我们提出了EmbodiedGen,一个基于生成式AI技术的自动化3D世界生成引擎,助力低成本、高效率地创建真实且可交互的3D场景。用户仅需输入任务定义或场景图像,即可自动化生成多样化、可交互的3D世界。
为了解决传统机器人仿真环境因高度依赖人工建模,所导致的高成本、低效率瓶颈,我们提出EmbodiedGen,面向具身智能的可交互3D世界的生成式平台。系统通过多模态Agent (Scene Designer) 智能解析用户输入的场景图像或任务文本描述,自动化生成符合交互规则与任务流程的结构化布局 (Scene Graph) ,实现高度定制化的场景设计。基于布局蓝图智能调用资产生成模块,高效生成物理合理的多样性3D资产:图像生成3D(从图像生成物理真实的3D资产),文本生成3D(从自然语言生成3D资产),活动关节物体生成(从双状态图像生成可活动的3D资产),纹理生成编辑(多风格的3D纹理生成与编辑),场景生成(多样化3D环境背景生成)。最终输出高保真的可交互3D世界,为机器人感知-决策-执行闭环提供物理精确的仿真环境。
单图生成物理真实3D资产
赋能高保真数字孪生
核心能力:
生成的3D资产具有业界领先的几何质量,真实物理属性、水密性与简化网格,可无缝导入多种仿真器中使用;
自动标注语义与质检标签,包括资产描述、纹理美学打分、前景提取质量检验与几何质量校验等;
消除纹理高光,结合法线信息多视角融合,输出2K分辨率纹理,细节更精致。
自然语言生成3D资产
资产库规模化低成本构建
核心能力:
支持通过自然语言描述(中&英)生成具备语义一致性、物理真实性的3D资产;
通过Agent系统智能拆解复杂生成需求(如“生成100种风格的杯子”)为不同的风格与形状描述,并通过质检标签自动筛选出视觉效果美观并且物理几何合理3D物体资产。
活动关节物体生成
双状态图像构建可活动3D资产
核心能力:
支持橱柜、抽屉等常见活动关节物体的生成,捕捉几何结构的同时建模部件之间的连接关系与运动行为;
采用扩散模型实现高质量的可控生成,通过双状态消除运动歧义,准确建模物体的关节关系;
输出的3D物体资产具备物理合理性,适用于交互式仿真环境中的操作与交互,详见我们发表的另一篇工作 DIPO。
纹理生成与编辑
3D资产视觉风格化增广
核心能力:
支持以3D网格和文本描述为输入,生成语义一致、几何视角一致的高质量2K分辨率纹理;
采用可插拔的可学习模块,将社区文生图基础模型能力迁移到3D纹理生成,最小化再训练成本;
输出资产纹理清晰、风格丰富,具备真实感与艺术表现力,支持3D文字纹理生成。
多样性场景生成
几何一致的背景3D资产
核心能力:
自然语言或图像输入,生成语义一致、结构合理、尺度真实的3D场景资产;
良好的可扩展性,主要包括全景图像生成、3D场景生成&迭代补全与尺度坐标对齐三个模块;
输出场景包含3D网格与3DGS两种表达,可作为机器人仿真中的背景资产。
任务驱动的布局生成
构建可交互3D世界蓝图
核心能力:
支持输入自然语言任务描述(如"Franka robotic arm picks shoes")或图片,一键生成语义合理、结构完整的3D可交互世界;
采用多叉树结构表达3D世界布局蓝图,节点为3D资产描述,边表示父子从属关系与空间布局关系;
利用LLM实现低代码布局搭建,结合物理引擎求解稳态位姿,确保物理可行与交互合理。
具身智能应用
EmbodiedGen以生成式AI重构3D世界构建范式,低成本生成几何精确、渲染真实的仿真资产(网格+3DGS混合表示),可快速导入仿真引擎,支撑机器人感知-决策-执行全流程闭环,赋能仿真数据生成与算法闭环评测等核心应用,包括以下具体示例:
通过EmbodiedGen构建物理精确数字孪生,在MuJoCo仿真环境中进行动态交互仿真。
通过EmbodiedGen生成待评测3D资产,并在Isaac中对操作模型性能进行仿真评测。
通过EmbodiedGen编辑物体纹理,生成多样性场景,对RoboTwin搭建的操作任务进行数据资产增广。
通过EmbodiedGen生成3D物体资产,用于OpenAI Gym中的导航及避障任务仿真。
总结与展望
EmbodiedGen通过整合图像、文本等多模态输入,打通从单体资产生成到物理真实的可交互式3D世界构建的全流程。模块化设计与生成式AI的深度融合,提高具身智能数据获取效率与仿真环境多样性。未来,EmbodiedGen将作为开放平台持续演进,助力通用智能体的开发与评测,推动具身智能从研究走向应用落地。
致谢
EmbodiedGen涉及以下出色的开源模型和项目:
[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.
[2] Tencent Hunyuan3D Team. Hunyuan3D‑Delight‑v2.0 Model Card, 2025.
[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.
[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.
[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.
[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.
[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.
[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.
[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.
[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.
[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.
[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.
[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.