AIGC|牛津大学最新研究,以RealFusion模型构建3D全景图像
原文:Oxford University Researchers Introduce A Diffusion Model Called RealFusion That Can Generate 360-degree Reconstructions Of Objects From An Image
作者: Tanya Malhotra 由DeFi之道编译
图片来源:由Maze AI工具生成
随着各类大型语言模型(Large Language Models 简称 LLMs)的日益普及,许多工作都得以借此可以更加方便地完成。比如,OpenAI 开发的以文本生成图像的 DALL-E 模型,可以依据输进的文本描述生成高质量的图像,已经有超过百万用户使用。
这些 LLMs 背后的 Diffusion 模型使用户能够通过调整变量生成各种图像,轻松地将文本转换为图像,除了这一功能外,一些模型还被用于以图生图,与文转图一样,通过这些模型生成的图像保持了大量的细节,以达到用户的需求。
目前,以图生图已经成为了可能,但如何将二维图像转变为三维图像任然是一个难题,难点所在是因为很难从一张二维图像中提取出生成3D图像所需的全部信息。而来自于牛津大学的一个研究小组开发了一种新的 Diffusion 模型,攻克了这一难题,在这一模型下能将一张二维图片中的物体构建成3D图,该模型被称为 RealFusion,传统方法认为假如不能获得多个角度视图,构建3D图像是不可能的,而现在这一认知被打破了。
该团队利用神经辐射场(Neural Radiance Field)的技术从已存的 2D 模型中提取 3D 信息,并表达出 3D 的几何外形和图像外看,他们还通过以下两个方面优化这一技术:
目的重建:已被用于确保辐射场模拟输进的图像。
分数蒸馏摘样(SDS—Score Distillation Sampling) :这是一个基于SDS的先验目的,它被用来确保 Diffusion 模型产生的样本及其他新的视角图能模拟辐射场。
研究人员利用预先练习的 Diffusion 模型(如稳定扩散 Stable Diffusion)的构成不同的视图,并以此来创建3D图像。
RealFusion 模型相关的创新主要有以下几点:
RealFusion 可以从单个图像中提取构建 3D 所需的360度信息,而无需考虑其他任何假设,诸如 3D 监督(3D supervision)和图像类型等。
RealFusion通过在现有数据集和原始图像上展示最先进的重建结果,超越了传统方法。
该团队还引进了一些新的正则化程序,它们使用 InstantNGP 进行了有效的实现。
RealFusion 通过在来自现有数据集和原生图像的多个图像上展示最先进的重建结果,优于传统方法。
RealFusion是图像生成的一个突破,打破了维度领域的限制。与现有的方法相比,RealFusion 展示出更好的图像质量、更好的外形和外看特征,毫无疑问是扩散模型范畴的一个重要的弥补。