Point-E: un sistema para generar nubes de puntos 3D a partir de solicitudes complejas

A pesar de que el trabajo reciente sobre generación de objetos 3D condicionada por texto presenta resultados prometedores, los métodos de vanguardia generalmente requieren muchas horas de GPU para producir una sola muestra. Esto se opone radicalmente a los últimos modelos de generación de imágenes, que producen muestras en solo algunos segundos o minutos. En este documento exploramos un método alternativo para la generación de objetos 3D, que produce modelos 3D en apenas 1 o 2 minutos con una sola GPU. Nuestro método genera primero una vista sintética simple usando un modelo de difusión de texto a imagen, y luego produce una nube de puntos 3D por medio de un segundo modelo de difusión condicionado por la imagen generada. Aunque nuestro modelo es inferior al de vanguardia en términos de calidad de la muestra, es una o dos órdenes de magnitud más rápido para obtener las muestras, lo que ofrece una compensación práctica para algunos casos de uso. Lanzamos nuestros modelos de difusión de nubes de puntos con entrenamiento previo, además de códigos y modelos de evaluación, en esta URL https(se abre en una nueva ventana).


