OpenAI presentó un nuevo modelo de inteligencia artificial llamado Sora que, según afirma, puede crear vídeos “realistas” e “imaginativos” de 60 segundos a partir de indicaciones de texto rápidas.
En una publicación del miércoles en su blog, la compañía dijo que Sora es capaz de generar videos de hasta 60 segundos de duración a partir de instrucciones de texto, con la capacidad de mostrar escenas con múltiples personajes, tipos específicos de movimientos y detalles de fondo.
“El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, decía la publicación.
OpenAI dijo que tiene la intención de entrenar modelos de inteligencia artificial (IA) para que puedan “ayudar a las personas a resolver problemas que requieren interacción en el mundo real”.
Sora
Este es el último paso de la compañía detrás del chatbot viral ChatGPT, para impulsar la inteligencia artificial generativa. Aunque los “modelos multimodales” no son nuevos y ya existen modelos de texto a vídeo, lo que los distingue en este caso es la longitud y la precisión que OpenAI afirma que tiene Sora, según Reece Hayden, analista senior de la firma de investigación de mercado ABI Research.
Hayden dijo que este tipo de modelos de IA podrían tener un gran impacto en los mercados de entretenimiento digital con la transmisión de nuevos contenidos personalizados a través de canales.
“Un caso de uso obvio es el de la televisión; creando escenas cortas que apoyen las narrativas”, dijo Hayden. “El modelo todavía es limitado, pero muestra la dirección del mercado”.
Al mismo tiempo, OpenAI dijo que Sora todavía es un trabajo en progreso con claras “debilidades”, particularmente cuando se trata de detalles espaciales de un mensaje (mezclando izquierda y derecha) y causa y efecto. Dio el ejemplo de crear un video de alguien dándole un mordisco a una galleta, pero sin que quede la marca del mordisco inmediatamente después.







