L’outil de conversion texte-vidéo de OpenAI, Sora, pourrait changer la science et la société

Share Button

La sortie de l’outil IA de conversion texte-vidéo de OpenAI, Sora, a suscité des questions importantes. La mise en service de l’outil IA Sora de conversion texte-vidéo de OpenAI le mois dernier a été accueillie avec un mélange d’appréhension et d’enthousiasme de la part des chercheurs préoccupés par les abus potentiels de la technologie. La société californienne a présenté la capacité de Sora à créer des vidéos photoréalistes à partir de quelques courts textes, avec des exemples incluant des séquences d’une femme marchant dans une rue illuminée au néon à Tokyo et un chien sautant entre deux rebords de fenêtre.

Tracy Harwood, spécialiste de la culture numérique à l’Université De Montfort à Leicester, au Royaume-Uni, déclare être “choquée” par la rapidité avec laquelle l’intelligence artificielle de conversion texte-vidéo (IA) a évolué. Il y a un an, les gens riaient devant une vidéo produite par IA de l’acteur américain Will Smith mangeant des spaghettis. Maintenant, certains chercheurs craignent que la technologie ne bouleverse la politique mondiale en 2024.

OpenAI, qui a également développé ChatGPT et la technologie de conversion texte-image DALL·E, a présenté Sora le 15 février, annonçant qu’elle mettait la technologie “à disposition des équipes de test pour évaluer les domaines critiques de dommages ou de risques”. Le “test en équipe rouge” fait référence au processus de simulation d’attaques ou d’exploitation d’une technologie pour voir comment elle pourrait faire face à des activités malveillantes, telles que la création de désinformation et de contenu haineux, dans le monde réel.

Sora n’est pas le premier exemple de technologie de conversion texte-vidéo ; d’autres incluent Gen-2, produit par Runway à New York et publié l’année dernière, et Lumiere dirigé par Google, annoncé en janvier. Harwood dit avoir été “sous-estimée” par certaines de ces autres offres. “Elles deviennent de plus en plus banales dans ce qu’elles présentent”, dit-elle, ajoutant que les programmes nécessitent des instructions très spécifiques pour les amener à produire un contenu captivant.

La désinformation est un défi majeur pour ces technologies de conversion texte-vidéo, ajoute Harwood. “Nous allons très rapidement atteindre un point où nous serons submergés par une avalanche d’informations vraiment convaincantes. C’est vraiment inquiétant.”

Fears électorales
Cela pose des problèmes particuliers avec les prochaines élections, notamment l’élection présidentielle américaine en novembre et les prochaines élections générales au Royaume-Uni. “Il y aura un nombre colossal de fausses vidéos et de faux audios en circulation”, déclare Dominic Lees, qui étudie l’IA générative et le cinéma à l’Université de Reading, au Royaume-Uni. Un faux audio du leader du Parti travailliste britannique, Keir Starmer, a été diffusé en octobre 2023, et un faux audio du président américain Joe Biden encourageant les démocrates à ne pas voter a circulé en janvier.

Une solution pourrait être d’exiger que l’IA de conversion texte-vidéo utilise des filigranes, soit sous forme de marque visible sur la vidéo, la qualifiant d’IA, soit comme une signature artificielle reconnaissable dans les métadonnées de la vidéo, mais Lees n’est pas sûr que cela réussira. “Pour l’instant, les filigranes peuvent être supprimés”, dit-il, et l’inclusion d’un filigrane dans les métadonnées d’une vidéo repose sur le fait que les gens recherchent activement si une vidéo qu’ils ont visionnée est réelle ou non. “Je ne pense pas que nous puissions honnêtement demander à des publics du monde entier de le faire pour chaque vidéo qu’ils regardent”, dit Lees.

Il existe également des avantages potentiels à la technologie. Harwood suggère qu’elle pourrait être utilisée pour présenter un texte difficile, tel qu’un article académique, dans un format plus facile à comprendre. “L’une des plus grandes choses qu’elle pourrait être utilisée est de communiquer des résultats à un public profane”, dit-elle. “Elle peut visualiser des concepts assez complexes.”

Un autre usage potentiel pourrait être dans les soins de santé, l’IA de conversion texte-vidéo pouvant parler aux patients à la place d’un médecin humain. “Certaines personnes pourraient trouver cela déconcertant”, dit Claire Malone, communicatrice scientifique consultante au Royaume-Uni. “D’autres pourraient le trouver extrêmement pratique s’ils veulent poser plusieurs fois par jour des questions à un professionnel de la santé.”

Gestion des données
Des outils d’IA de conversion texte-vidéo tels que Sora pourraient aider les chercheurs à naviguer à travers d’énormes ensembles de données, tels que ceux produits par le laboratoire européen de physique des particules CERN près de Genève en Suisse et d’autres grands projets scientifiques, dit Malone. L’IA générative pourrait “extraire du code et effectuer les tâches banales de la recherche”, ajoute-t-elle, mais également effect

 399 total views,  3 views today

Share Button
(Visited 58 times, 1 visits today)