Lors de sa conférence pour les développeurs, Google a su contraster l'offensive d'OpenAI avec une multitude d'annonces • Le Ilya Sutskever quitte OpenAI • Les Philippines préparent un stablecoin public • Unitree présente un nouveau robot humanoïde • Bienvenue dans Qant, mercredi 15 mai 2024.
« Le progrès est devant nous, à condition de dépasser sa propagande » Paul Virilio
Chaque jour, les journalistes de Qant illustrent les tendances de fond qui animent la tech. Ils s’appuient sur Kessel Média et utilisent l’IA générative depuis mars 2022.
“Le combat des robots” (Qant, M. de R. avec Midjourney)
Hier matin, un accord entre OpenAI et Apple semblait très probable. Aujourd’hui, il semble inévitable.
Mardi soir en effet, Google a annoncé que Gemini 1.5 sera placé au cœur de son système d’exploitation mobile. Cette version 15 d’Android est déjà disponible en bêta. Gemini Nano, déjà déployé sur 100 millions de terminaux, sera doté de capacités multimodales pour minimiser la latence. Cela permettra des conversations potentiellement aussi naturelles que celle, hier, de la directrice technique d’OpenAI Mira Murati avec le nouveau ChatGPT, qui semble conçu pour remplacer Siri. Les expressions et intonations en moins, car Google ne fait pas dans le sentiment.
Gemini Nano devient un modèle de fondation “built-in” et “on device” : intégré aux téléphones dès leur conception. Il traitera sur le téléphone, sans communication extérieure, les données confidentielles : les conversations, par exemple, écrites et orales. Le modèle peut ainsi signaler à l’utilisateur un appel frauduleux, comme ceux qui se multiplient de la part de faux agents bancaires. Ou comme celui dont a été victime, cet hiver, le support technique des casinos MGM à Las Vegas, ce qui a ouvert la porte à l’une des attaques par ransomware les plus ruineuses du siècle.
Pour le dire clairement, l’IA de Google analysera, en temps réel et vraisemblablement en permanence, tout ce qui se passe sur l’écran et dans le micro d’un téléphone Android, soit environ 70% des téléphones dans le monde. Elle agira comme un agent de sécurité et, ô surprise, de recherche. Les données non personnelles et non confidentielles, et notamment les requêtes d’information, seront envoyées soit à Gemini 1.5 Pro (lire Qant du 11 avril) soit au nouveau modèle Gemini 1.5 Flash, capable de réponses plus rapides pour soutenir une conversation sans latence.
OpenAI n’est donc pas seule à entrer dans l’IA temps réel. Mais Google y arrive avec des modèles qui acceptent des prompts de 1 million de tokens, et prochainement 2 millions. Soit un PDF de 1 500 pages, une heure de vidéo, 30 000 lignes de code… et bientôt le double. L’ambition est d’arriver à une fenêtre de contexte infinie, qui permettra d’assurer une personnalisation absolue et, peut-être, d’augmenter la fiabilité des modèles (quoique sur ce point, le créateur de Bard est devenu très prudent, et pour cause : lire Qant du 15 mai). Comme pour l’architecture GPT, la recherche principale s’est faite au sein de Google. Seuls les laboratoires de Meta ont également proposé un papier de recherche sur le sujet.
Et si c’était tout ! Les GPTs d’OpenAI doivent maintenant se mesurer aux Gems de Google : des macros programmables plutôt que de véritables agents, dans les deux cas, mais les Gems sont nativement multimodales. Et Google a montré hier les premiers véritables agents d’IA. Le projet Astra, mené par les équipes londoniennes de Deepmind, semble avoir réellement de quoi envoyer l’IA dans les astres.
Bien sûr, Google n’en est pas à sa première démo approximative, hyperbolique, voire mensongère. En un an de course effrénée pour rattraper OpenAI, les bourdes n’ont pas manqué. Mais cette édition d’I/O, épargnée par les fuites qui avaient participé à gâcher les années précédentes, semble avoir réussi un tour de force : compenser par la substance et les avancées des modèles la poudre qu’OpenAI a jeté, la veille, aux yeux du monde.
RETROUVEZ TOUTES LES ANNONCES DE GOOGLE, L’ANALYSE DES NOUVEAUX MODÈLES ET L’INTÉGRALITÉ DE CET ARTICLE EN FIN DE LETTRE
Connu jusqu’à présent pour des robochiens aux applications discutables, comme le Thermonator (lire Qant du 24 avril et du 6 mars), le chinois Unitree continue de développer ses capacités dans le domaine des robots humanoïdes. Son tout dernier modèle, le G1 Humanoid Agent, est proposé à un prix de départ de 16 000 dollars (14 800 euros), nettement inférieur aux 90 000 dollars (83 500 euros) de son prédécesseur, le H1.
Le G1 se distingue par sa capacité à effectuer des mouvements de grande amplitude, ce qui le rend particulièrement adapté à des applications variées, que ce soit comme assistant personnel ou comme opérateur sur une chaîne de montage.
Doté d'une tête en forme de casque équipée de capteurs Lidar 3D et d'une caméra de profondeur, ainsi que de mains robotiques aux capacités préhensiles, le G1 peut exécuter avec précision des tâches nécessitant une manipulation délicate. Il est également conçu pour résister aux chocs physiques, ce qui augmente sa capacité à se relever après des coups. Il est capable de courir à une vitesse de 2 mètres par seconde et sa batterie offre une autonomie d'environ deux heures. Le robot pèse 35 kg et peut se replier dans des dimensions compactes de 690 par 450 par 300 millimètres pour un transport facile.
Unitree indique que l’IA du G1 continue d’être entraînée dans un environnement simulé, en utilisant l'apprentissage par renforcement et par imitation. Les nouvelles compétences acquises seront incorporées sur tous les modèles via des mises à jour logicielles.
Pour en savoir plus :
Sutskever quitte le navire OpenAI : Ilya Sutskever, co-fondateur et directeur scientifique d'OpenAI, a annoncé dans la nuit de mardi à mercredi qu'il quittait officiellement l'entreprise. Sutskever a expliqué qu'il se consacrera désormais à un projet personnel qu'il dévoilera ultérieurement. Jakub Pachocki, directeur de la recherche chez OpenAI, le remplacera en tant que directeur scientifique. Cette transition intervient dans un contexte de tensions internes révélées suite à la tentative de destitution temporaire d'Altman l'année dernière (lire Qant du 20 novembre 2023).
Pour en savoir plus : New York Times
MS Copilot gérera le télétravail • Microsoft vient de lancer Places, une application alimentée par l'IA intégrée à Microsoft 365, conçue pour faciliter la coordination des jours de présence au bureau dans un contexte de travail hybride. Places permet aux employés de planifier leurs jours de bureau et intègre ces informations dans les calendriers Outlook pour une meilleure organisation des réunions et événements en présentiel. Cette solution aidera également à la gestion des espaces avec des fonctionnalités de réservation de salles et de bureaux partagés. Prévue pour être intégrée à Microsoft Copilot, Places offrira des recommandations sur les meilleurs jours pour se rendre au bureau.
Pour en savoir plus : The Verge
Du code solide comme le Granite • IBM a lancé une série de modèles de code open-source nommée Granite, conçus pour faciliter la programmation. Ces modèles, dotés de 3 à 34 milliards de paramètres, sont disponibles publiquement sur des plateformes comme Hugging Face, GitHub et Rhel AI. Ils visent à optimiser diverses tâches de codage telles que la génération, le débogage et l'explication de code.
Pour en savoir plus : Mark Tech Post
Un pilote de stablecoins aux Philippines • La banque centrale des Philippines a autorisé la plateforme blockchain Coins.ph à tester un stablecoin adossé au peso philippin. Ce projet pilote, qui débutera en juin, évaluera l'utilisation du stablecoin dans des applications réelles tout en surveillant son impact sur le système financier existant. Coins.ph envisage d'intégrer ce stablecoin dans les plateformes de transfert de fonds vers les Philippines, un marché majeur des envois de fonds.
Pour en savoir plus : Coindesk
Élections américaines : l’IA facilite le harcèlement des fonctionnaires • 38 % des fonctionnaires chargés du bon fonctionnement de la machine électorale américaine ont été victimes de menaces, de harcèlement ou d'abus. Le département fédéral de la Justice des États-Unis a engagé plusieurs dizaines de procédures, qui ont déjà abouti à 13 condamnations. L'IA représente une préoccupation croissante, car elle est utilisée pour protéger l’anonymat des malfaiteurs, en leur permettant de se créer une fausse voix, par exemple.
Pour en savoir plus : Axios
Miner du bitcoin ou espionner • Les États-Unis viennent d’ordonner la fermeture immédiate d'un datacenter dans le Wyoming. Détenu par des Chinois, il minait des cryptomonnaies tout en étant situé près d'une base de l'US Air Force à Cheyenne qui contrôle des missiles balistiques intercontinentaux armés de têtes nucléaires, et non loin d’un datacenter de Microsoft consacré à la défense. Microsoft l’avait signalé comme une menace potentielle en août 2022.
Pour en savoir plus : New York Times
Des Vision Pro partout dans le monde, mais moins que prévu • Le mois prochain, Apple lancera son casque de réalité mixte, le Vision Pro, sur les marchés internationaux. Des employés de magasins internationaux en Australie, Chine, France, Allemagne, Japon, Singapour et Corée du Sud sont arrivés à Cupertino pour apprendre à faire la démonstration du produit. Le dispositif est disponible aux États-Unis depuis le mois de février (lire Qant du 1er février), mais les ventes ont été décevantes. Après avoir écoulé 200 000 casques en dix jours, Apple a diminué ses projections. Pour le reste de l’année, il ne devrait se vendre que 200 000 supplémentaires aux États-Unis et 400 000 dans le reste du monde. En cause, le prix élevé (près de 3 500 dollars, soit 3 200 euros), mais aussi le manque d’applications.
Pour en savoir plus : Bloomberg, Ming-Chi Kuo
En exclusivité pour les abonnés :
Google déploie l’IA tout au long de son “système intégré”, des puces Trillium aux assistants vocaux et vidéos, via la recherche générative, le cloud, les téléphones et une foule de nouveaux modèles
La perspective d’un agent d’IA évolutif et personnel se précise
La recherche générative pourrait bien bouleverser le modèle économique de Google, mais aussi toute l’économie numérique
L’annonce la plus spectaculaire de Google I/O, hier soir, a été faite à la vingt-cinquième minute de la vidéo ci-dessus. Elle montre l’avenir des agents d’IA.
Le projet Astra de Google Deepmind développe un agent d'intelligence avancé capable de gérer des entrées audio et vidéo en temps réel. Il se base sur Gemini Live, qui sera déployé d’ici à la fin de l’année.
Très proche du nouveau ChatGPT, Gemini Live maintient une conversation naturelle tout en analysant la vidéo qui lui est soumise et en consultant l’index de Google, au cœur du moteur de recherche. Le modèle maintient en mémoire cette conversation multimodale : il peut ainsi indiquer à l’utilisatrice l’endroit où elle a oublié ses lunettes. Il semble “orienté spatialement” comme le casque Vision Pro d’Apple et peut en tout cas reconnaître son environnement s’il a été enregistré par Google Maps. Tout comme GPT-4o (lire Qant du 14 mai), il peut “lire” des textes et du code informatique, analyser un graphique ou une photo, titrer un dessin (non sans humour) et suggérer des modifications pour résoudre un problème ou améliorer un concept.
...