OpenAI prévoit d’introduire son dernier modèle d’intelligence artificielle (IA) générative, Sora, plus tard cette année, selon un rapport. Sora, présenté le mois dernier, est un générateur de texte-vidéo alimenté par l’IA qui, selon la société, peut générer des vidéos d’une durée allant jusqu’à 60 secondes, soit beaucoup plus longtemps que n’importe lequel de ses concurrents du secteur. Dans une récente interview, le directeur technique de la société d’IA a également révélé que Sora peut générer des vidéos en quelques minutes en fonction de la complexité de l’invite. L’entretien a également abordé des sujets tels que l’imperfection du modèle, les données utilisées pour le former et le prix possible de Sora.
Dans une interview avec le Wall Street Journal, Mira Murati, CTO d’OpenAI, à la question de savoir quand le générateur vidéo d’IA serait disponible, a déclaré : « J’espère bien cette année, mais cela pourrait être dans quelques mois. Lorsqu’on lui a demandé si l’élection présidentielle américaine, prévue pour novembre 2024, jouerait un rôle dans les réflexions de l’entreprise sur le moment de publier le modèle d’IA, Murati a déclaré que lutter contre la désinformation et les préjugés préjudiciables est important pour l’entreprise et a ajouté : « Nous ne divulguerons rien dont nous ne sommes pas sûrs quant à l’impact que cela pourrait avoir sur les élections mondiales.»
Murati a également été interrogé sur la source de données sur laquelle Sora a été formé. La question intéresse également l’organisme italien de surveillance de la protection des données, qui enquête sur d’éventuelles violations de données par OpenAI. Les régulateurs ont donné 20 jours à la société d’IA pour fournir des informations sur le générateur vidéo d’IA.
Dans l’interview, Murati a également semblé ne révéler aucun détail et a simplement déclaré que le modèle d’IA avait été formé sur des données disponibles dans le domaine public et qui avaient été concédées sous licence à l’entreprise. Elle a également déclaré qu’elle ne savait pas si les données de YouTube ou de Facebook avaient été utilisées, mais a confirmé à la publication que Sora utilisait du contenu de Shutterstock, avec qui ils ont un partenariat.
Sora est également un modèle très coûteux à exécuter par rapport à d’autres outils OpenAI tels que ChatGPT et DALL-E, a expliqué Murati. « ChatGPT et DALL-E sont optimisés pour que le public puisse les utiliser alors que Sora est en réalité un résultat de recherche. C’est beaucoup, beaucoup plus cher”, a déclaré le CTO au WSJ. Bien que la société n’ait pas finalisé le prix du modèle vidéo AI, Murati a déclaré que la société essayait de rendre le modèle disponible, une fois publié, à un coût similaire à celui du DALL-E. À l’heure actuelle, le prix de base du modèle DALL-E 3 est de 0,040 $ (environ Rs. 3) par image dans une résolution de 1 024 x 1 024 pixels.
En outre, le CTO d’OpenAI a également souligné que la société s’efforçait d’apporter des capacités audio à Sora, d’optimiser le temps de génération et sa rentabilité, et d’apporter de nouvelles améliorations pour minimiser les imperfections.