谷歌发布AI生成3D模型的新方法

Google Research 最近推出的一个名为 DreamFusion 方法，是一种从文本提示生成 3D 模型的新方法。

这种方法将文本到 2D 图像扩散的模型与神经辐射场（NeRF）相结合，生成质量适合于 AR 项目或作为雕刻的基础网格的带纹理 3D 模型。

至关重要的是，它不需要一组真实的 3D 模型来用作培训数据，为开发实用的、基于大众市场 AI 的文本到 3D 工具铺平了道路。

1. 可将文字描述转为带纹理的3D模型

DreamFusion 由 Google Research 和 UC Berkeley 的一个团队开发，它通过文本描述生成 3D模型，例如“一个非常精细的松鼠金属雕塑，穿着金色衣服，正在吹萨克斯”。然后就直接出来模型了！这要是放在十几年前，估计有人会说瞎编骗人的，但现在真实现了？

除了 3D 模型的几何形状，文本还可定义它的材质和纹理，可以在在线演示中尝试将“金属雕塑”换成“木雕”或“DSLR照片”。

2. 结合神经辐射场和2D扩散

为了生成模型 DreamFusion 结合了两种主要方法：神经辐射场和 2D 扩散。 它逐步改进初始的随机 3D 模型，以匹配从不同角度显示目标对象的 2D 参考图像，比如Nvidia 的 Instant NeRF 等目前都在使用这种方法。

而 DreamFusion 与 Instant NeRF 不同，它参考的不是现实物体的照片，而是由 OpenAI 的 DALL-E 2 和 Stability.ai 的 Stable Diffusion 使用的那种类型的 2D 文本到图像模型生成的合成图像。在这种情况下，2D 扩散模型是 Google 自己的 Imagen，但总体结果是相同的：生成的 3D 模型与原始文本描述生成的 2D 参考图像相匹配。

3. 仍然只是一个研究演示

看到这里可能大家想问去哪里下载这个工具，想试试手了对吧？但是目前 DreamFusion 功能十分有限。项目的 GitHub 页面只可以让用户从一系列预设文本提示中进行选择，然后显示生成的3D模型，但不允许输入自己的文本描述。

还有就是生成的资产分辨率也相当低。DreamFusion 的在线图库显示了一系列 .glb 格式的模型，只适合在 AR 项目中使用，或者作为基础网格然后导入其他 DCC 软件中进行精雕刻细化。

4. 为新一代商业文本到3D工具铺平道路？

然而，像 DreamFusion 这样的研究项目的真正意义并不在于它们目前能做什么，而是它们如何为开发更实用的工具开辟道路。

虽然像 DALL-E 2 这样的 2D 扩散模型是根据从互联网上抓取的 2D 图像训练的，但要对 3D 做同样的事情要困难得多。

正如 DreamFusion 的摘要所言：“将这种方法应用于 3D 合成需要标记 3D 资产的大规模数据集和高效的 3D 数据去噪方法，这两种方法目前都不存在。”

通过消除对此类大规模 3D 数据集的需求，DreamFusion 提出了新一波生成AI艺术工具的可能性，仅仅对于 3D 模型，而不是 2D 图像。

考虑到像 DALL-E 这样的 2D AI 艺术工具从最初的发布到大规模公开使用只花了不到两年的时间，所以推测这个 DreamFusion 未来的发展可能比你想象的要快得多。所以，很快你就会用上 AI 自动生成的模型了，到那时候，你只需根据自己的需求在此基础上进行细致雕刻，更或者只稍作调整就可以应用到项目中了，何乐而不为之？