Point-E: un sistema per generar núvols de punts 3D a partir d’indicacions complexes

Tot i que els treballs recents sobre la generació d’objectes 3D condicionada per text han mostrat resultats prometedors, els mètodes més avançats solen requerir diverses hores de GPU per produir una sola mostra. Això contrasta fortament amb els models generatius d’imatges més avançats, que produeixen mostres en qüestió de segons o minuts. En aquest article, explorem un mètode alternatiu per a la generació d’objectes 3D que produeix models 3D en només 1-2 minuts amb una sola GPU. El nostre mètode primer genera una única vista sintètica mitjançant un model de difusió de text a imatge i, després, produeix un núvol de punts 3D mitjançant un segon model de difusió condicionat per la imatge generada. Tot i que el nostre mètode encara no arriba a l’estat de l’art pel que fa a la qualitat de les mostres, és entre un i dos ordres de magnitud més ràpid en el mostreig, i ofereix un compromís pràctic per a alguns casos d’ús. Publiquem els nostres models de difusió de núvols de punts prèviament entrenats, així com el codi i els models d’avaluació, a aquesta URL https(s'obre en una finestra nova).


