Lorsque Apple a lancé Siri pour la première fois en 2011 avec l’iPhone 4S, la société a diffusé une série de publicités convaincantes montrant comment utiliser cet assistant vocal innovant. Dans l’une d’elles, Zooey Deschanel demande à son téléphone de livrer de la soupe à la tomate ; dans une autre, John Malkovich cherche des conseils existentiels. Martin Scorsese, quant à lui, réorganise son emploi du temps depuis l’arrière d’un taxi new-yorkais. Ces publicités mettaient en avant les rappels, la météo, les alarmes, et plus encore, soulignant que Siri était un compagnon utile et constant, capable de répondre à vos besoins sans nécessiter d’applications ou de manipulations. Il suffisait de demander.
Siri représentait un tournant majeur pour Apple. Lors de l’événement de lancement de l’iPhone 4S, Phil Schiller d’Apple a déclaré que Siri était la meilleure fonctionnalité du nouvel appareil. « Pendant des décennies, les technologues nous ont fait rêver de pouvoir parler à la technologie pour qu’elle exécute des tâches pour nous », a-t-il dit. « Mais cela ne se réalise jamais ! » Tout ce que nous voulons, a-t-il ajouté, c’est parler à notre appareil de la manière dont nous voulons et obtenir des informations et de l’aide. Dans un moment de bravoure typiquement Apple, Schiller a proclamé qu’Apple avait résolu ce problème.
Cependant, Apple n’avait pas résolu le problème. En 13 ans depuis ce lancement initial, Siri est devenu, pour la plupart des gens, soit un moyen de régler des minuteurs, soit une fonctionnalité inutile à éviter à tout prix. Siri a été médiocre pendant si longtemps qu’il a semblé pendant des années qu’Apple l’avait soit oublié, soit choisi de prétendre qu’il n’existait pas.
Mais la semaine prochaine à la WWDC, si les rumeurs et les rapports sont vrais, nous pourrions enfin rencontrer le véritable Siri — ou du moins quelque chose qui s’en rapproche beaucoup plus. Selon Bloomberg, The New York Times, et d’autres sources, Apple va dévoiler une refonte majeure de l’assistant, rendant Siri plus fiable grâce aux modèles de langage de grande taille, mais sans beaucoup de nouvelles fonctionnalités. Ce serait déjà une victoire. Mais Apple semble également travailler sur une version de Siri qui s’intègrera réellement aux applications, permettant à l’assistant de prendre des mesures sur votre appareil en votre nom. En théorie, du moins, tout ce que vous pouvez faire sur votre téléphone, Siri pourrait bientôt le faire pour vous.
C’est évidemment la vision de Siri depuis le début. On peut même le voir dans ces publicités de l’iPhone 4S : ces célébrités demandent de l’aide à Siri, et Siri ne termine presque jamais le travail. Il fournit à Deschanel une liste de restaurants mentionnant la livraison mais n’offre pas de passer commande ni de montrer le menu. Il informe Scorsese qu’il y a du trafic mais ne le redirige pas — et ne devrait-il pas déjà savoir qu’il va être en retard à sa réunion ? Siri dit à Malkovich d’être gentil avec les gens et de lire un bon livre, mais n’offre aucune aide pratique. Jusqu’à présent, utiliser Siri, c’est comme avoir un assistant virtuel dont le seul travail est de faire des recherches sur Google pour vous. Ce qui est déjà quelque chose ! Mais ce n’est pas beaucoup.
Les incapacités de Siri ont été d’autant plus frustrantes que tout ce dont il a besoin pour être utile se trouve déjà sur votre téléphone. Quand je veux une pizza, pourquoi Siri ne peut-il pas vérifier mes e-mails pour le reçu de la dernière commande, ouvrir DoorDash, passer la même commande, payer avec l’une des cartes de mon Apple Wallet, et voilà ? Si j’ai une journée aussi chargée que celle de Scorsese, Siri semble être juste à côté de tous mes contacts, mon Slack, mes e-mails, et tout le reste dont il a besoin pour déplacer rapidement des choses pour moi. Si Siri pouvait prendre le contrôle de mon téléphone comme l’un de ces outils d’accès à distance qui permet à quelqu’un d’autre de déplacer le curseur de votre ordinateur, ce serait imparable.
Il y a vraiment deux raisons pour lesquelles Siri n’a jamais atteint son potentiel de cette manière. La première est simple : la technologie sous-jacente n’était pas assez bonne. Si vous avez utilisé Siri, vous savez à quelle fréquence il comprend mal les noms, les commandes, et se contente de « voici ce que j’ai trouvé sur le web » alors que tout ce que vous vouliez était de jouer un podcast. C’est là que les grands modèles de langage sont indéniablement très excitants, car nous avons vu combien les outils de reconnaissance vocale comme Whisper se sont améliorés et comment ces modèles peuvent comprendre le langage de manière beaucoup plus large. Ils ne sont pas parfaits, mais ils sont une énorme amélioration par rapport à ce que nous avions auparavant — ce qui explique pourquoi Amazon pivote également Alexa vers les LLMs et que Google Assistant est envahi par Gemini.
La deuxième raison pour laquelle Siri n’a jamais vraiment fonctionné est que ni Apple ni les développeurs tiers n’ont jamais compris comment il devait fonctionner. Comment êtes-vous censé savoir ce que Siri peut faire ou comment demander ? Comment les développeurs sont-ils censés intégrer Siri ? Même maintenant, si vous voulez ajouter une tâche à votre application de liste de tâches, Siri ne peut pas simplement deviner quelle application vous utilisez. Vous devez dire, « Hé Siri, rappelle-moi d’arroser la pelouse dans Todoist », ce qui est une phrase étrange qui n’a aucun sens et, selon mon expérience, échoue la moitié du temps de toute façon. Si vous voulez effectuer une action en plusieurs étapes, votre seule option est de vous débrouiller avec Raccourcis, qui est un outil très puissant mais qui frôle l’exigence de savoir coder. C’est trop pour la plupart des gens.
L’IA pourrait également donner à Apple une chance de contourner complètement le problème. Ses chercheurs ont publié un article plus tôt cette année détaillant un système appelé Ferret-UI, qui utilise un modèle d’IA pour comprendre les petits détails d’une image à l’écran. Les chercheurs détaillent même comment une application globale utilisant Siri pourrait fonctionner : GPT-4 d’OpenAI fait un bon travail pour comprendre globalement ce qu’est une image, et Ferret est capable de comprendre de petites régions et détails. En pratique, cela pourrait signifier qu’un système dit, « C’est l’application Ticketmaster ! » et l’autre dit, « Cela, juste là, est le bouton d’achat. »
Nous devrions être sceptiques quant aux affirmations qu’Apple fera sur Siri. Il y a plus d’une décennie, Schiller se tenait sur scène et proclamait qu’Apple avait construit un meilleur assistant vocal, et ce n’était pas vrai. La même chose pourrait être vraie maintenant, alors que l’engouement pour l’IA progresse beaucoup plus vite que la technologie réelle. Humane, Rabbit, Google, et d’autres travaillent tous sur des idées similaires — « agent » est le mot à la mode de l’été dans le monde de l’IA — et personne n’a encore démontré que c’est prêt.
Mais si Apple a résolu quelque chose ici, cela pourrait être la première fois que nous verrons le véritable Siri — le Siri que nous attendions depuis toutes ces années. Peut-être que dans la prochaine publicité, la soupe à la tomate de Deschanel apparaîtra simplement comme par magie chez elle, et l’application Headspace se mettra en route pour apporter à Malkovich un peu de paix intérieure. Peut-être, enfin, nous aurons le Siri qu’Apple a toujours voulu créer.
710 total views, 1 views today