Point-E: un sistema para generar nubes de puntos en 3D a partir de prompts complejos

A pesar de que los trabajos recientes sobre la generación de objetos 3D condicionados por texto han mostrado resultados prometedores, hasta los métodos más avanzado suelen tardar varias horas con una GPU para producir una sola muestra. No obstante, esto contrasta de forma notable con los modelos generativos de imágenes más avanzados, ya que estos producen muestras en cuestión de minutos o segundos. En este artículo, exploramos un método alternativo para generar objetos en 3D que produce modelos tridimensionales en tan solo un par de minutos en una única GPU. En primer lugar, nuestro método genera una única vista sintética empleando un modelo de difusión de texto a imagen. A continuación, produce una nube de puntos 3D empleando un segundo modelo de difusión que condiciona la imagen que se genera. Somos conscientes de que nuestro método todavía no está a la altura de los métodos más avanzados en términos de calidad de muestras, pero es mucho más rápido, por lo que se trata de una solución muy práctica en algunos casos de uso. Hemos publicado nuestros modelos de difusión de nubes de puntos entrenados previamente, así como el código y los modelos de evaluación en este enlace⁠(se abre en una ventana nueva).

Point-E: un sistema para generar nubes de puntos en 3D a partir de prompts complejos

Resumen

Autores

Artículos relacionados