Histoire d'un O

OpenAI lance GPT-4o, un assistant multimodal en temps réel • Google I/O s’ouvre ce soir • La Chine et les États-Unis se concertent sur les risques de l’IA • Claude se lance en Europe • Nvidia adapte Cuda au calcul quantique • Bienvenue dans Qant, mardi 14 mai.

« Le progrès est devant nous, à condition de dépasser sa propagande » Paul Virilio

Chaque jour, les journalistes de Qant illustrent les tendances de fond qui animent la tech. Ils s’appuient sur Kessel Média et utilisent l’IA générative depuis mars 2022.

L’ÉVÉNEMENT

Oh ! GPT-4o peut remplacer Siri

La multimodalité en temps réel de GPT-4o permet au nouveau ChatGPT d’émuler le film Her, jusque dans les réponses émotionnelles. Et surtout de remplacer Siri, Alexa et tous les assistants vocaux créés jusqu’à présent.

“Un nouveau robot sort de l’eau”( Qant, M. de R. avec Midjourney)“Un nouveau robot sort de l’eau”( Qant, M. de R. avec Midjourney)

La hache de guerre est enterrée. Sam Altman a laissé la directrice technique d’OpenAI Mira Murati présenter le nouveau modèle GPT-4o (O pour Omnimodel), même si on a beaucoup dit qu’elle était à l’origine de son départ l’an dernier (lire Qant du 24 novembre 2023). En 25 minutes, la chercheuse d’origine albanaise a montré hier soir un nouveau ChatGPT, capable de reconnaître des émotions dans une voix ou un visage humain, et d’y répondre en en simulant soi-même.

Pour obtenir ce résultat, ChatGPT s’appuie sur un modèle de fondation entièrement multimodal, capable d’interpréter des prompts comprenant de la voix, des images et (imagine-t-on) du texte, puis de générer sa réponse dans toutes ces modalités sans passer par du texte, comme c’était le le cas jusqu’à présent pour tous les modèles sauf Gemini de Google. 

L’effet instantané

Mieux encore, GPT-4o génère ses réponses en temps réel, ce qui permet à ChatGPT de tenir une véritable conversation sans temps de latence. Peu inquiète de “l’effet démo”, OpenAI prévoit de le mettre gratuitement à disposition de tous les utilisateurs de ChatGPT (avec quelques restrictions pour garder la latence la plus basse possible). 

La plus-value de l’abonnement à ChatGPT Plus semble ainsi destinée à disparaître à terme. OpenAI rejoint Google et Meta dans le camp du “tout gratuit”, isolant Anthropic et son modèle par abonnement. Les tarifs de l’API sont divisés par quatre (deux fois plus de tokens, deux fois moins chers).

Analyser les sentiments

Ce pari étonnant peut s’expliquer de trois manières. Tout d’abord, les problèmes récurrents d’OpenAI avec le droit d’auteur et les données personnelles. GPT-4o crée toute une nouvelle classe de données d’entraînement : les intonations et les expressions des utilisateurs ; leurs sentiments même. Mieux vaut, dans ce cas,  apparaître comme un service gratuit.

En outre, l’IA émotionnelle de GPT-4o devrait avoir un formidable effet sur les chatbots commerciaux (notamment en la couplant à un avatar vidéo, généré par Sora par exemple). OpenAI peut donc escompter grâce à GPT-4o une augmentation considérable de son chiffre d’affaires auprès des entreprises. Or celles-ci, dit-on, génèrent déjà le plus clair de son revenu annuel récurrent (ARR), estimé à 1 milliard de dollars en fin d’année dernière et 2 milliards cette année. 

Un traducteur dans la poche

Enfin, et surtout, ChatGPT devient l’assistant idéal pour un smartphone. Tout aussi multimodal que GPT-4o, Gemini ne génère pourtant pas, dans les Galaxy S24 de Samsung, des services de traduction simultanée de la qualité de Mira Murati parlant italien avec un de ses collaborateurs :  

La probabilité, déjà très élevée, qu’Apple annonce un accord avec OpenAI a donc fait un bond hier soir. Nous en analysons les raisons dans l’évaluation complète de GPT-4o, ci-dessous.

L’INTÉGRALITÉ DE L’ÉVALUATION DU NOUVEAU CHATGPT EST DISPONIBLE EN FIN DE LETTRE

Google I/O s’ouvre sous le signe de la recherche générative

Google aura fort à faire, ce soir, pour présenter des modèles capables de rivaliser avec GPT-4o. Pourtant le déploiement progressif de son interface de recherche générative a commencé, et le géant a peu de choses à envier à Open AI en matière de multimodalité.

Gemini a été pionnier en matière de multimodalité et de déploiement dans un téléphone mobile demandant une réactivité en temps réel. GPT-4o ne fait que perfectionner ces services, avec un talent de communication qui a échappé à Google, jusqu’à présent. On imagine la joie avec laquelle l’annonce d’hier soir a été accueillie à Mountain View.

Rien n’a encore fuité, étonnamment, sur les modèles que le géant présentera ce soir. C’est souvent le signe qu’il y aura peu d’annonces importantes, mais il serait surprenant que Google ne présente pas de nouveau modèle dans la synthèse vocale ou vidéo. Seulement, sauf avancée majeure, ces annonces se trouveront avoir été préemptées par OpenAI. 

Trouver plutôt que chercher

Qui plus est, le nouveau ChatGPT présente une manière conviviale de chercher de l’information sur Internet – ou même de s’en passer. Si un accord avec Apple vient à en faire l’avenir de Siri, la menace sera directe. 

En face, Google s’est résigné à déployer aux États-Unis son interface de recherche générative, la Search Generative Experience (SGE : lire Qant du 14 décembre 2023). Le nombre de pages affichées en SGE varie pour l'instant fortement d’un jour à l’autre, entre 35% et 75%, ainsi que la surface consacrée aux réponses générées par l’IA.

Selon une étude du cabinet Gartner, le nombre des recherches chutera tout de même de 25% d'ici à 2026 en raison de l’IA. Et avec lui, le trafic des éditeurs et le chiffre d’affaires de Google. En lançant le déploiement de la SGE en avril dernier, le CEO de Google Sundar Pichai avait voulu se montrer rassurant. Il avait annoncé un changement "mesuré" qui "donnera la priorité au trafic vers les sites web et les commerçants". Les éditeurs de contenus se préparent au pire.

Inconnue judiciaire

Apple, qui a ouvert des pourparlers aussi bien avec Google qu’OpenAI pour l’intégration de l’IA dans l’iPhone 16 (lire Qant du 29 avril), tient dans ses mains le futur équilibre du marché. D’après le procès en antitrust qui vient de conclure ses audiences et des informations du New York Times, Google paie Apple environ 18 milliards de dollars par an pour apparaître comme le moteur de recherche par défaut sur les smartphones, les tablettes et les ordinateurs griffés d’une pomme (lire Qant du 14 septembre 2023). 

La sentence ne sera rendue que cet été, mais la plupart des observateurs penchent vers une condamnation de Google. Un facteur de plus qui peut pousser Apple à choisir le nouveau ChatGPT en remplacement de Siri et en faire un assistant vocal connecté en permanence à Internet, qui répondra aux questions sans publicité. 

Pour en savoir plus : 

L’ESSENTIEL : Anthropic, ARM, Falcon, Microsoft, Nvidia, SoftBank, Stanford

SÉCURITÉ

  • Pékin et Washington se parlent sur les risques de l’IA • Les États-Unis et la Chine entament ce mardi à Genève des discussions sur les risques liés à l'intelligence artificielle. Elles visent à éviter des accidents et une guerre non intentionnelle dans le contexte d'une course aux armements technologiques. Ces pourparlers ne prévoient pas de déclaration conjointe ni de coopération en matière de recherche sur l'IA.
    Pour en savoir plus: Washington Post

  • Londres propose d’Inspecter les IA • Le Royaume-Uni vient de lancer Inspect, une bibliothèque logicielle de tests de sécurité pour l'intelligence artificielle, créée par l'Institut britannique de Sécurité de l'IA. Ce nouvel outil, premier du genre soutenu par un État, permettra aux startups, aux chercheurs, aux développeurs et aux gouvernements internationaux d'évaluer et de noter les capacités spécifiques des modèles d'IA.
    Pour en savoir plus: Pymnts

INTELLIGENCE ARTIFICIELLE

  • Claude débarque en Europe : Anthropic vient d'annoncer le lancement de Claude, son assistant IA, à travers l'Europe. L'outil est désormais disponible sur le site web Claude.ai et en application iOS, ainsi qu'avec un abonnement "Team" pour les entreprises. Le modèle Claude 3 Opus (lire Qant du 5 mars), inclus dans ces offres, est du niveau de GPT-4. L’offre comprend des fonctionnalités avancées pour les entreprises, comme des limites d'utilisation accrues et une assistance prioritaire. L'équipe d’Anthropic a quitté OpenAI en 2021 pour se concentrer sur la sécurité des modèles, la confidentialité des données et l’utilisation éthique de l’IA
    Pour en savoir plus : Bloomberg

  • La France, terre d’accueil pour les datacenters  • Microsoft a annoncé hier un investissement de 4,3 milliards de dollars (3,9 milliards d'euros) dans des projets de cloud et d'intelligence artificielle en France. Ce plan, le plus important de l'entreprise dans le pays en 41 ans de présence, vise à former un million de personnes et à soutenir 2 500 startups spécialisées en IA d'ici à 2027. Le projet inclut l'expansion des centres de données existants à Paris et Marseille et la création d'un nouveau campus de centres de données dans la région Grand Est. Cet engagement a été présenté au sommet annuel Choose France, où Microsoft a volé la vedette à AWS (1,3 Md€), KDDI Telehouse (1 Md€) et Equinix (630 M€), qui tous prévoient d’investir dans des data centers. Le bond dans la consommation électrique et les engagements d’EDF en la matière n’ont pas été commentés.
    Pour en savoir plus : Pymnts, Le Figaro

  • ARM veut s’étendre dans les datacenters grâce à l’IA • Le fleuron britannique ARM, dont les puces dominent le monde des smartphones, prévoit de lancer ses premiers processeurs dédiés à l'intelligence artificielle en 2025. Un prototype sera présenté au printemps de l'année prochaine, avec une production de masse prévue pour l'automne. Des négociations sont en cours avec TSMC à Taiwan pour la production, sous l’égide du japonais Softbank, actionnaire majoritaire. Selon Nikkei Asia, ARM envisagerait de scinder cette division en une entreprise indépendante après avoir lancé la production.
    Pour en savoir plus : Nikkei Asia, Reuters

  • Falcon 2 prend son envol • L'Institut d'Innovation Technologique d'Abu Dhabi vient de lancer la série Falcon 2, qui comprend un modèle de génération de texte, Falcon 2 11B; et un modèle vision-langage, Falcon 2 11B VLM. Celui-ci est capable de générer des descriptions textuelles à partir d'images.
    Pour en savoir plus : Bloomberg

MONNAIES NUMÉRIQUES ET BLOCKCHAINS

  • La difficile adoption du yuan numérique • De nombreux travailleurs chinois participant au programme pilote du yuan numérique et payés avec cette monnaie la convertissent rapidement en espèces, selon le South China Morning Post. L'utilité limitée du yuan numérique et les préoccupations liées à la surveillance poussent ces utilisateurs à préférer le cash. Les transactions effectuées avec le yuan numérique à ce jour  ont tout de même dépassé les 250 milliards de dollars américains, malgré ces inquiétudes.
    Pour en savoir plus : South China Morning Post, Cointelegraph

AR-VR-MR-XR

  • Augmenter la réalité dans des lunettes de vue • Le laboratoire d'imagerie computationnelle de Stanford vient de présenter une technologie d'imagerie holographique assistée par IA qui pourrait révolutionner les lunettes de réalité augmentée. Ce prototype, plus fin, plus léger et de meilleure qualité que les modèles existants, pourrait s'intégrer dans des montures de lunettes standards et projeter des images 3D réalistes et en mouvement. Bien que toujours en phase de prototype, cette technologie utilise un "guide d'ondes métasurface nanophotonique" pour améliorer la qualité de l'image.
    Pour en savoir plus : The Verge

QUANTUM

  • Nvidia ouvre son accélération quantique • Nvidia vient de lancer une déclinaison de la plateforme open-source Cuda (Compute Unified Device Architecture) pour accélérer les efforts en matière de calcul quantique. Des sites en Allemagne, au Japon et en Pologne utiliseront Cuda-Q pour alimenter les unités de traitement quantique (QPU) de leurs systèmes informatiques haute performance.
    Pour en savoir plus : VentureBeat

ÉDITION PREMIUM

En exclusivité pour les abonnés :

  • GPT-4o constitue-t-il réellement une avancée par rapport aux capacités multimodales de Gemini ? Peut-il présenter des formes de raisonnement ou devenir un agent d’IA ?

  • Quel sera le sens du rapprochement entre Apple et OpenAI, s’il se confirme d’ici au 10 juin ?

  • Le deuxième volet de notre série sur l’évaluation des modèles d’IA par six critères : l’agentivité, la fiabilité, la multimodalité, la personnalisation, le raisonnement et la robotique.

Comment juger des avancées d’IA, II

Le cas de GPT-4o.

Source : OpenAISource : OpenAI

Côté performances, il n’y a pas de quoi fouetter un chat.

GPT-4o atteint certes un nouveau sommet dans le test de “culture générale” le plus courant pour les modèles d’IA, MMLU : 88,7% de bonnes réponses contre 86,5 % pour GPT-4 Turbo. Mais cela reste mineur : de quoi donner apparemment raison à ceux qui, comme le chercheur Gary Marcus, soutiennent que l’architecture GPT a atteint un plateau avec GPT-4 et que le marché va s’ouvrir au fur et à mesure que les modèles de ce niveau se multiplient. “OpenAI s’est probablement tournée vers de nouvelles fonctionnalités précisément parce qu’elle ne réussit pas [à poursuivre le long de] « l’amélioration exponentielle »”, commentait-il hier soir après la présentation de GPT-4o. Mais il n’y pas que le moteur dans une voiture et l’optimisation de la multimodalité de GPT-4 offre de puissantes perspectives – sans compter que le dernier mot n’a pas été dit sur les modèles eux-mêmes..

Non seulement la qualité de la synthèse vocale de GPT-4o éclipse ElevenLabs, qui faisait jusqu’ici la course en tête, mais la suppression des temps de latence permet des conversations fluides et une traduction réellement simultanée. Le passage d’une recherche sur Internet écrite (comme Google) à une recherche générative sur un prompt verbal devient parfaitement concevable. Elle prélude à un monde sans clavier, où l’homme parle à la machine. 

...

Qant: Révolution cognitive et Avenir du numérique

Qant: Révolution cognitive et Avenir du numérique

Par QANT: Révolution cognitive et Avenir du numérique

Jean Rognetta

Binational franco-italien, économiste de formation, Jean devient journaliste au milieu des années 1990, après avoir fait ses premiers pas dans l’édition et la technologie. Il débute sa carrière au groupe Tests, leader de la presse informatique, puis se spécialise en financement de l’innovation et des PME. Il couvre le sujet pour Les Echos et Capital Finance de 2000 à 2015. En 2016, il rejoint le magazine Forbes et devient directeur de la rédaction de l’édition française.
Pendant la crise financière, il lance l’association PME Finance, à l’origine notamment du PEA-PME et de l’amortissement du corporate venture, ainsi que partiellement de la libéralisation du crowdfunding. Elle fusionne en 2015 avec le groupement d’entrepreneurs Croissance Plus.
Depuis 2020, Jean a lancé la revue SAY, édition française de Project Syndicate, dont il reste contributing editor, le supplément Corporate Finance du Nouvel Économiste et la collection Demain! aux Editions Hermann.

Maurice de Rambuteau

Diplômé du Centre de Formation des Journalistes (CFJ Paris) et de l'Ecole Supérieure de Commerce de Paris (ESCP BS), Maurice de Rambuteau a fait ses premières armes de journaliste dans le sport, pour le site et le magazine SoFoot, puis au sein de la rédaction football de L'Equipe. Il s'est ensuite tourné vers le journalisme économique au sein de la rédaction de La Croix, avant de donner libre cours à sa passion pour la technologie en rejoignant Qant en juin 2022 pour un premier tour d’horizon de l’IA générative. Depuis, il a percé les mystères des blockchains et du métavers et, surtout, passé des dizaines de modèles d’IA au banc d’essai.

Les derniers articles publiés