旷视等开源Chat 谷歌& 编辑能力无上限!北航&
发布时间:2024-11-15 01:35:12点击:
文章链接:项目地址:代码:
引言
过去的3D场景编辑方法往往局限于固定的文本输入模式和有限的编辑能力。用户需要学习特定的命令或特定的多模态模型来实现所需的效果。而且,这些方法通常只能进行简单的编辑,难以实现复杂的场景变换。然而实际应用中,用户的语言是及其丰富的,用户的编辑需要也是多种多样的,当前的方法的设计范式均无法满足用户的诉求。
为了突破这些限制,本文提出了一种全新的3D场景编辑新范式—CE3D。该方法基于大规模语言模型,通过解耦2D编辑和3D重建过程,实现了灵活且高效的任意模型的集成,大大丰富了文本对话能力和场景编辑能力。
什么是CE3D?
CE3D,即Chat-Edit-3D,对话式3D场景编辑的突破。它的核心思想是通过大规模语言模型解析用户的任意文本输入,并自主调用相应的视觉模型来完成3D场景的编辑。为了实现任意视觉模型的集成,CE3D设计了名为Hash-Atlas的映射网络,将3D场景的编辑转换为2D图集空间内的操作,从而实现了2D编辑与3D重建过程的完全解耦,从此无需再指定固定的3D表示形式和2D编辑方法。
文章主要贡献如下:
方法
首先说明CE3D 整体pipeline(下图3),然后介绍Hash-Atlas网络的设计、atlas空间中的编辑策略以及CE3D中对话系统的组件。
Hash-Atlas网络
本节介绍了一种简单的方法,将场景的各个视图直接映射到2D图集上,从而将3D场景编辑过程重新定位到2D空间中。类似的技术最初用于将视频帧映射到图集,需要连续帧和平滑的摄像机运动,这与本文中使用的3D场景数据不同。为了实现本文所述的编辑功能,图集应满足以下条件:
Hash-Atlas公式
为了满足上述条件,设计了一个基于哈希结构的网络,如下图4所示。
当图集被编辑后,通过方程3可以在不重新训练Hash-Atlas网络的情况下恢复3D场景每个视图的编辑效果。
训练和损失项
在图集空间中编辑
本文发现,直接编辑两个图集然后将它们映射回场景视图通常不会产生令人满意的编辑结果。这主要是因为单个图集包含的场景信息不完整,特别是在稀疏的前景图集中。这种限制使得编辑模型无法获取完整的场景语义,从而始终无法实现可靠的编辑。因此,设计了一种用于编辑图集的合并-拆分策略。在此过程中,利用ChatGPT的解析能力和VQA模型来识别编辑区域。如果这些区域涉及前景内容,我们将前景图集覆盖在背景图集上,并将其作为实际的编辑图集。随后,使用原始前景mask和新对象mask来分离编辑后的图集。用“执行器”来表示实际的编辑过程,如前面图3所示。
对话系统
对场景名称的敏感度
作为一种语言模型,ChatGPT无法直接访问文本以外的信息。然而,考虑到编辑过程中涉及的大量文件,将所有这些文件作为文本输入到ChatGPT中是不现实的。因此,用格式为‘xxx.scn’的单个字符串来表示所涉及的文件。这个字符串是唯一且无意义的,以防止ChatGPT捏造场景名称。尽管这个场景名称并不是一个真正可读的文件,但通过前端和后端的进一步处理,CE3D可以有效地处理真实文件。前端将编辑结果和ChatGPT的输出组织成用户回复,而后端则分发编辑过程中涉及的真实场景文件,并管理新场景的名称和文件。
用户查询的推理
在面对用户输入时,ChatGPT模拟一个思考过程:“我需要使用视觉工具吗?”→“我需要哪些工具?”→“这些工具的具体输入应该是什么?”。因此,预先向ChatGPT注入每个视觉专家的信息以完成这个推理过程是至关重要的。类似于[62, 66],将每个视觉工具标注为四个类别:工具名称、在什么情况下使用、所需参数和具体输入示例。
编辑能力展示
在多轮对话编辑案例中,CE3D能够处理各种类型的编辑请求,例如精准对象移除或替换、基于文本或图像的风格迁移、深度图预测、基于文本和深度图条件的场景再生、人体Pose预测、场景超分、场景分割等。此外,它还可以完成与场景相关的视觉问答任务和基本的文本对话。总之,因为能任意扩展视觉模型,因此编辑能力无上限!
未来展望
虽然CE3D在3D场景编辑方面取得了显著进展,但研究人员表示,这项技术仍有改进空间。例如,在处理360度全景场景时可能会遇到一些挑战,还有进一步研究的空间。
原文链接: