OpenAI lance GPT-4o, un assistant multimodal en temps réel • Google I/O s’ouvre ce soir • La Chine et les États-Unis se concertent sur les risques de l’IA • Claude se lance en Europe • Nvidia adapte Cuda au calcul quantique • Bienvenue dans Qant, mardi 14 mai.
« Le progrès est devant nous, à condition de dépasser sa propagande » Paul Virilio
Chaque jour, les journalistes de Qant illustrent les tendances de fond qui animent la tech. Ils s’appuient sur Kessel Média et utilisent l’IA générative depuis mars 2022.
“Un nouveau robot sort de l’eau”( Qant, M. de R. avec Midjourney)
La hache de guerre est enterrée. Sam Altman a laissé la directrice technique d’OpenAI Mira Murati présenter le nouveau modèle GPT-4o (O pour Omnimodel), même si on a beaucoup dit qu’elle était à l’origine de son départ l’an dernier (lire Qant du 24 novembre 2023). En 25 minutes, la chercheuse d’origine albanaise a montré hier soir un nouveau ChatGPT, capable de reconnaître des émotions dans une voix ou un visage humain, et d’y répondre en en simulant soi-même.
Pour obtenir ce résultat, ChatGPT s’appuie sur un modèle de fondation entièrement multimodal, capable d’interpréter des prompts comprenant de la voix, des images et (imagine-t-on) du texte, puis de générer sa réponse dans toutes ces modalités sans passer par du texte, comme c’était le le cas jusqu’à présent pour tous les modèles sauf Gemini de Google.
Mieux encore, GPT-4o génère ses réponses en temps réel, ce qui permet à ChatGPT de tenir une véritable conversation sans temps de latence. Peu inquiète de “l’effet démo”, OpenAI prévoit de le mettre gratuitement à disposition de tous les utilisateurs de ChatGPT (avec quelques restrictions pour garder la latence la plus basse possible).
La plus-value de l’abonnement à ChatGPT Plus semble ainsi destinée à disparaître à terme. OpenAI rejoint Google et Meta dans le camp du “tout gratuit”, isolant Anthropic et son modèle par abonnement. Les tarifs de l’API sont divisés par quatre (deux fois plus de tokens, deux fois moins chers).
Ce pari étonnant peut s’expliquer de trois manières. Tout d’abord, les problèmes récurrents d’OpenAI avec le droit d’auteur et les données personnelles. GPT-4o crée toute une nouvelle classe de données d’entraînement : les intonations et les expressions des utilisateurs ; leurs sentiments même. Mieux vaut, dans ce cas, apparaître comme un service gratuit.
En outre, l’IA émotionnelle de GPT-4o devrait avoir un formidable effet sur les chatbots commerciaux (notamment en la couplant à un avatar vidéo, généré par Sora par exemple). OpenAI peut donc escompter grâce à GPT-4o une augmentation considérable de son chiffre d’affaires auprès des entreprises. Or celles-ci, dit-on, génèrent déjà le plus clair de son revenu annuel récurrent (ARR), estimé à 1 milliard de dollars en fin d’année dernière et 2 milliards cette année.
Enfin, et surtout, ChatGPT devient l’assistant idéal pour un smartphone. Tout aussi multimodal que GPT-4o, Gemini ne génère pourtant pas, dans les Galaxy S24 de Samsung, des services de traduction simultanée de la qualité de Mira Murati parlant italien avec un de ses collaborateurs :
La probabilité, déjà très élevée, qu’Apple annonce un accord avec OpenAI a donc fait un bond hier soir. Nous en analysons les raisons dans l’évaluation complète de GPT-4o, ci-dessous.
L’INTÉGRALITÉ DE L’ÉVALUATION DU NOUVEAU CHATGPT EST DISPONIBLE EN FIN DE LETTRE
Gemini a été pionnier en matière de multimodalité et de déploiement dans un téléphone mobile demandant une réactivité en temps réel. GPT-4o ne fait que perfectionner ces services, avec un talent de communication qui a échappé à Google, jusqu’à présent. On imagine la joie avec laquelle l’annonce d’hier soir a été accueillie à Mountain View.
Rien n’a encore fuité, étonnamment, sur les modèles que le géant présentera ce soir. C’est souvent le signe qu’il y aura peu d’annonces importantes, mais il serait surprenant que Google ne présente pas de nouveau modèle dans la synthèse vocale ou vidéo. Seulement, sauf avancée majeure, ces annonces se trouveront avoir été préemptées par OpenAI.
Qui plus est, le nouveau ChatGPT présente une manière conviviale de chercher de l’information sur Internet – ou même de s’en passer. Si un accord avec Apple vient à en faire l’avenir de Siri, la menace sera directe.
En face, Google s’est résigné à déployer aux États-Unis son interface de recherche générative, la Search Generative Experience (SGE : lire Qant du 14 décembre 2023). Le nombre de pages affichées en SGE varie pour l'instant fortement d’un jour à l’autre, entre 35% et 75%, ainsi que la surface consacrée aux réponses générées par l’IA.
Selon une étude du cabinet Gartner, le nombre des recherches chutera tout de même de 25% d'ici à 2026 en raison de l’IA. Et avec lui, le trafic des éditeurs et le chiffre d’affaires de Google. En lançant le déploiement de la SGE en avril dernier, le CEO de Google Sundar Pichai avait voulu se montrer rassurant. Il avait annoncé un changement "mesuré" qui "donnera la priorité au trafic vers les sites web et les commerçants". Les éditeurs de contenus se préparent au pire.
Apple, qui a ouvert des pourparlers aussi bien avec Google qu’OpenAI pour l’intégration de l’IA dans l’iPhone 16 (lire Qant du 29 avril), tient dans ses mains le futur équilibre du marché. D’après le procès en antitrust qui vient de conclure ses audiences et des informations du New York Times, Google paie Apple environ 18 milliards de dollars par an pour apparaître comme le moteur de recherche par défaut sur les smartphones, les tablettes et les ordinateurs griffés d’une pomme (lire Qant du 14 septembre 2023).
La sentence ne sera rendue que cet été, mais la plupart des observateurs penchent vers une condamnation de Google. Un facteur de plus qui peut pousser Apple à choisir le nouveau ChatGPT en remplacement de Siri et en faire un assistant vocal connecté en permanence à Internet, qui répondra aux questions sans publicité.
Pour en savoir plus :
Pékin et Washington se parlent sur les risques de l’IA • Les États-Unis et la Chine entament ce mardi à Genève des discussions sur les risques liés à l'intelligence artificielle. Elles visent à éviter des accidents et une guerre non intentionnelle dans le contexte d'une course aux armements technologiques. Ces pourparlers ne prévoient pas de déclaration conjointe ni de coopération en matière de recherche sur l'IA.
Pour en savoir plus: Washington Post
Londres propose d’Inspecter les IA • Le Royaume-Uni vient de lancer Inspect, une bibliothèque logicielle de tests de sécurité pour l'intelligence artificielle, créée par l'Institut britannique de Sécurité de l'IA. Ce nouvel outil, premier du genre soutenu par un État, permettra aux startups, aux chercheurs, aux développeurs et aux gouvernements internationaux d'évaluer et de noter les capacités spécifiques des modèles d'IA.
Pour en savoir plus: Pymnts
Claude débarque en Europe : Anthropic vient d'annoncer le lancement de Claude, son assistant IA, à travers l'Europe. L'outil est désormais disponible sur le site web Claude.ai et en application iOS, ainsi qu'avec un abonnement "Team" pour les entreprises. Le modèle Claude 3 Opus (lire Qant du 5 mars), inclus dans ces offres, est du niveau de GPT-4. L’offre comprend des fonctionnalités avancées pour les entreprises, comme des limites d'utilisation accrues et une assistance prioritaire. L'équipe d’Anthropic a quitté OpenAI en 2021 pour se concentrer sur la sécurité des modèles, la confidentialité des données et l’utilisation éthique de l’IA
Pour en savoir plus : Bloomberg
La France, terre d’accueil pour les datacenters • Microsoft a annoncé hier un investissement de 4,3 milliards de dollars (3,9 milliards d'euros) dans des projets de cloud et d'intelligence artificielle en France. Ce plan, le plus important de l'entreprise dans le pays en 41 ans de présence, vise à former un million de personnes et à soutenir 2 500 startups spécialisées en IA d'ici à 2027. Le projet inclut l'expansion des centres de données existants à Paris et Marseille et la création d'un nouveau campus de centres de données dans la région Grand Est. Cet engagement a été présenté au sommet annuel Choose France, où Microsoft a volé la vedette à AWS (1,3 Md€), KDDI Telehouse (1 Md€) et Equinix (630 M€), qui tous prévoient d’investir dans des data centers. Le bond dans la consommation électrique et les engagements d’EDF en la matière n’ont pas été commentés.
Pour en savoir plus : Pymnts, Le Figaro
ARM veut s’étendre dans les datacenters grâce à l’IA • Le fleuron britannique ARM, dont les puces dominent le monde des smartphones, prévoit de lancer ses premiers processeurs dédiés à l'intelligence artificielle en 2025. Un prototype sera présenté au printemps de l'année prochaine, avec une production de masse prévue pour l'automne. Des négociations sont en cours avec TSMC à Taiwan pour la production, sous l’égide du japonais Softbank, actionnaire majoritaire. Selon Nikkei Asia, ARM envisagerait de scinder cette division en une entreprise indépendante après avoir lancé la production.
Pour en savoir plus : Nikkei Asia, Reuters
Falcon 2 prend son envol • L'Institut d'Innovation Technologique d'Abu Dhabi vient de lancer la série Falcon 2, qui comprend un modèle de génération de texte, Falcon 2 11B; et un modèle vision-langage, Falcon 2 11B VLM. Celui-ci est capable de générer des descriptions textuelles à partir d'images.
Pour en savoir plus : Bloomberg
La difficile adoption du yuan numérique • De nombreux travailleurs chinois participant au programme pilote du yuan numérique et payés avec cette monnaie la convertissent rapidement en espèces, selon le South China Morning Post. L'utilité limitée du yuan numérique et les préoccupations liées à la surveillance poussent ces utilisateurs à préférer le cash. Les transactions effectuées avec le yuan numérique à ce jour ont tout de même dépassé les 250 milliards de dollars américains, malgré ces inquiétudes.
Pour en savoir plus : South China Morning Post, Cointelegraph
Augmenter la réalité dans des lunettes de vue • Le laboratoire d'imagerie computationnelle de Stanford vient de présenter une technologie d'imagerie holographique assistée par IA qui pourrait révolutionner les lunettes de réalité augmentée. Ce prototype, plus fin, plus léger et de meilleure qualité que les modèles existants, pourrait s'intégrer dans des montures de lunettes standards et projeter des images 3D réalistes et en mouvement. Bien que toujours en phase de prototype, cette technologie utilise un "guide d'ondes métasurface nanophotonique" pour améliorer la qualité de l'image.
Pour en savoir plus : The Verge
Nvidia ouvre son accélération quantique • Nvidia vient de lancer une déclinaison de la plateforme open-source Cuda (Compute Unified Device Architecture) pour accélérer les efforts en matière de calcul quantique. Des sites en Allemagne, au Japon et en Pologne utiliseront Cuda-Q pour alimenter les unités de traitement quantique (QPU) de leurs systèmes informatiques haute performance.
Pour en savoir plus : VentureBeat
En exclusivité pour les abonnés :
GPT-4o constitue-t-il réellement une avancée par rapport aux capacités multimodales de Gemini ? Peut-il présenter des formes de raisonnement ou devenir un agent d’IA ?
Quel sera le sens du rapprochement entre Apple et OpenAI, s’il se confirme d’ici au 10 juin ?
Le deuxième volet de notre série sur l’évaluation des modèles d’IA par six critères : l’agentivité, la fiabilité, la multimodalité, la personnalisation, le raisonnement et la robotique.
Source : OpenAI
Côté performances, il n’y a pas de quoi fouetter un chat.
GPT-4o atteint certes un nouveau sommet dans le test de “culture générale” le plus courant pour les modèles d’IA, MMLU : 88,7% de bonnes réponses contre 86,5 % pour GPT-4 Turbo. Mais cela reste mineur : de quoi donner apparemment raison à ceux qui, comme le chercheur Gary Marcus, soutiennent que l’architecture GPT a atteint un plateau avec GPT-4 et que le marché va s’ouvrir au fur et à mesure que les modèles de ce niveau se multiplient. “OpenAI s’est probablement tournée vers de nouvelles fonctionnalités précisément parce qu’elle ne réussit pas [à poursuivre le long de] « l’amélioration exponentielle »”, commentait-il hier soir après la présentation de GPT-4o. Mais il n’y pas que le moteur dans une voiture et l’optimisation de la multimodalité de GPT-4 offre de puissantes perspectives – sans compter que le dernier mot n’a pas été dit sur les modèles eux-mêmes..
Non seulement la qualité de la synthèse vocale de GPT-4o éclipse ElevenLabs, qui faisait jusqu’ici la course en tête, mais la suppression des temps de latence permet des conversations fluides et une traduction réellement simultanée. Le passage d’une recherche sur Internet écrite (comme Google) à une recherche générative sur un prompt verbal devient parfaitement concevable. Elle prélude à un monde sans clavier, où l’homme parle à la machine.
...