OpenAI, la startup de inteligencia artificial fundada por Elon Musk detrás del popular generador de texto a imagen DALL-E, anunció el martes el lanzamiento de su nueva máquina de creación de imágenes POINT-E, que puede producir nubes de puntos 3D directamente desde mensajes de texto. Mientras que los sistemas existentes como DreamFusion de Google generalmente requieren varias horas y GPU para generar sus imágenes, Point-E solo necesita una GPU y uno o dos minutos.
El modelado 3D se utiliza en una variedad de industrias y aplicaciones. Los efectos CGI de los éxitos de taquilla de las películas modernas, los videojuegos, la realidad virtual y la realidad aumentada, las misiones de mapeo de cráteres lunares de la NASA, los proyectos de preservación de sitios patrimoniales de Google y la visión de Meta para Metaverse dependen de las capacidades de modelado 3D. Sin embargo, la creación de imágenes 3D fotorrealistas sigue siendo un proceso que consume mucho tiempo y recursos, a pesar del trabajo de NVIDIA para automatizar la generación de objetos y la aplicación móvil RealityCapture de Epic Game, que permite a cualquier persona con un teléfono iOS escanear objetos del mundo real como imágenes 3D.
Los sistemas de texto a imagen como DALL-E 2 y Craiyon de OpenAI, DeepAI, Lensa de Prisma Lab o Stable Diffusion de HuggingFace han ganado rápidamente popularidad, notoriedad e infamia en los últimos años. Text-to-3D es una rama de esa investigación. Point-E, a diferencia de sistemas similares, «aprovecha un gran corpus de pares (texto, imagen), lo que le permite seguir indicaciones diversas y complejas, mientras que nuestro modelo de imagen a 3D se entrena en un conjunto de datos más pequeño de (imagen, 3D) pares», escribió el equipo de investigación de OpenAI dirigido por Alex Nichol en Point·E: A System for Generating 3D Point Clouds from Complex Prompts, publicado la semana pasada. «Para producir un objeto 3D a partir de un mensaje de texto, primero muestreamos una imagen utilizando el modelo de texto a imagen y luego muestreamos un objeto 3D condicionado a la imagen muestreada. Ambos pasos se pueden realizar en varios segundos, y no requieren costosos procedimientos de optimización».
Fuente: Andrew Tarantola | Engadget
Para leer más ingresa a: https://www.engadget.com/openai-releases-point-e-dall-e-3d-text-modeling-210007892.html