英伟达用照片造出逼真 3D 乐器，论文入选计算机视觉顶会

ZeR0 发表于 2022/6/22 15:13:36

英伟达用照片造出逼真 3D 乐器，论文入选计算机视觉顶会

6 月 21 日报道，今日，英伟达研究院（NVIDIA Research）的新研究在全球计算机视觉三大顶级会议之一 CVPR 2022（计算机视觉与模式识别会议）上亮相。

NVIDIA 提出的 3D MoMa 逆渲染流程方法，展示了一种能将 2D 照片变成 3D 物体的新方法。图形创作者可以快速将物体导入图形引擎，并修改比例、改变材质或尝试不同的照明效果。

本周，关于 3D MoMa 的论文将在 CVPR 上发表。其论文名为《从图像中提取三角形三维模型、材质和照明》（Extracting Triangular 3D Models, Materials, and Lighting From Images）。这将是 NVIDIA 在本次 CVPR 上发表的 38 篇论文之一。

论文地址：点此查看

项目地址：点此查看

一、用 2D 照片快速生成 3D 物体

3D 内容建模既需要艺术建模技能，又需要掌握计算机技术知识。而实现自动化 3D 建模，可以节约大量的生产成本，或加速更多样化的内容创建。

其中，逆渲染是将一系列静态照片重建为 3D 物体或场景模型的技术。NVIDIA 图形学研究副总裁 David Luebke 称：“该技术长期以来一直是统一计算机视觉和计算机图形学的关键。”

他谈道：“NVIDIA 3D MoMa 渲染流水线能将逆渲染问题的每个部分表示为 GPU 加速的可微分组件，然后使用现代 AI 机器和 NVIDIA GPU 的原始算力快速生成 3D 物体，且创作者可以在现有工具中自由地导入、编辑和扩展这些物体。”

为了使艺术家或工程师能够充分利用 3D 物体，其形式应能够导入游戏引擎、3D 建模器和电影渲染器等各种被广泛使用的工具。

带有纹理、材质的三角网格形式，就是此类 3D 工具使用的通用语言。

三角网格是用于定义 3D 图形和建模形状的基本框架。游戏工作室和其他创作者习惯于使用复杂的摄影测量技术来创建 3D 物体，这需要耗费大量的时间和精力。

近期的神经辐射场（Neural Radiance Fields）研究可以快速生成物体或场景的 3D 模型，但并不是使用易于编辑的三角网格形式。

当在单个 NVIDIA Tensor Core GPU 上运行时，NVIDIA 3D MoMa 能在 1 小时内生成三角网格模型。该流水线的输出结果与创作者现在使用的 3D 图形引擎和建模工具直接兼容。

流水线的重建功能包括 3D 网格模型、材质和照明。网格就像由三角形构建的 3D 形状混凝纸浆模型。有了它，开发者就可以依照自己的创意对物体进行修改。材质是叠加在 3D 网格上的 2D 纹理，就像人的皮肤一样。NVIDIA 3D MoMa 通过对场景光线进行估算，使创作者能够在日后修改物体上的照明。

相比之下，近年来许多类似的 3D 重建研究，或者不能轻松支持场景编辑操作，或者牺牲了重建质量，在神经网络中编码的材质也不能轻易地被编辑或提取成与传统游戏引擎兼容的形式。

二、为虚拟爵士乐队调校乐器

为了展示 NVIDIA 3D MoMa 的功能，NVIDIA 的研究和创意团队首先从不同角度收集了五种爵士乐队乐器（小号、长号、萨克斯、架子鼓和单簧管）的约 100 张图片。

NVIDIA 3D MoMa 将 2D 图像重建为每种乐器的 3D 表示，并以网格形式呈现。

然后，NVIDIA 团队将这些乐器从原始场景中取出，并将其导入 NVIDIA Omniverse 3D 模拟平台中进行编辑。

在任何传统图形引擎中，创作者都能轻松为形状调换由 NVIDIA 3D MoMa 生成的材质，就像给网格穿上不同的衣服一样。

例如，该团队对小号模型采取了这种做法，将原来的塑料材质，快速更换成黄金、大理石、木材或软木。

创作者可以将新编辑的物体放入任何虚拟场景中。NVIDIA 团队将这些乐器放入了经典的图形渲染质量测试康奈尔盒中。

他们证明了虚拟乐器对光线的反应与在物理世界中完全一样：闪亮的铜管乐器反射出亮光，哑光的鼓皮则会吸收光线。

这些通过逆渲染生成的新物体可以作为复杂动画场景的构成要素。

▲ 虚拟爵士乐队

三、高效的逆渲染方法，整体研究思路概述

总体来说，研究人员提出了一种高效的逆渲染方法，能从多视角图像中提取具有空间变化的材料和环境照明的未知拓扑三角网格，它们可以部署在任何传统图形引擎中而未经修改。

▲ 研究方法的概述

NVIDIA 团队假设在一个未知的环境光照条件下，有相应的摄像机位姿和背景分割掩模来指示这些图像中的物体，进行 3D 重建。

该方法学习曲面网格的拓扑和顶点位置，而无需对 3D 几何图形进行任何初始猜测。其目标表示由三角网格、空间变化的材质（存储在 2D 纹理中）和照明（一个高动态范围的环境探针）组成。

该方法的核心是基于可变性四面体网格的可微分曲面模型，并通过一种新的可微分分割和近似方法将其扩展到支持空间变化的材料和高动态范围（HDR）环境照明。

研究人员使用高度优化的可微分光栅与延迟遮光，联合优化几何、材料和照明。生成的 3D 模型无需转换，就能部署在手机、web 浏览器等任意支持三角渲染的设备上，并以交互速率呈现。

▲ NVIDIA 团队从 2D 监督中联合学习拓扑、材质、照明，重建三角网格，无需修改即可在标准游戏引擎中使用

实验表明，该研究提取的模型可用于场景编辑、材料分解和高质量视图插值，所有这些模型都在基于三角形的渲染器（光栅器和路径跟踪器）中以交互速率运行。

结语：将助力简化创意团队的工作流程

在论文最后，本篇论文作者提到，这项研究的主要限制是简化了阴影模型，没有考虑全局照明或阴影。这一选择是有意加速优化，但受制于材质提取和重照明。

随着可微分路径追踪的研究取得新进展，研究人员期待在未来的工作中去除这一限制。其他限制还包括静态照明假设、没有优化摄像机位姿、训练期间高计算资源和内存消耗等。

当然，每当涉及场景重建方法，大众普遍会关心深度伪造问题。对此，研究人员称尚未察觉或预见到其方法的负面用途。

总的来说，NVIDIA 这项能帮助创作者快速将 2D 照片变成 3D 物体、兼容现代 3D 引擎和建模工具的新研究，将有助于进一步简化建筑师、设计师、概念艺术家和游戏开发者等创意团队的工作流程，为他们腾出更多发挥创意的时间。

智能时代 Archiver