La difficile évaluation des modèles
Londres crée un laboratoire pour la sécurité de l'IA, en coordination avec l'Otan • Anthropic propose d'intégrer des marges d'erreur pour des évaluations plus fiables des modèles de langage • La roupie numérique s’ouvre aux paiements transfrontaliers • Collaborative Robotics présente son premier cobot • Bienvenue dans Qant, mardi 26 novembre 2024.
« Le progrès est devant nous, à condition de dépasser sa propagande » Paul Virilio
Le Royaume-Uni offre à l’Otan un laboratoire pour la sécurité de l’IA
Le gouvernement britannique lance un laboratoire pour la sécurité de l’IA.
Annoncé lors de la conférence de l’Otan sur la cybersécurité qui s’est tenue lundi à Londres, le Laboratoire pour la recherche en sécurité de l’intelligence artificielle (Lasr) recevra un financement initial de 8,22 millions de livres (environ 9,5 M€). Il réunira des experts de l’industrie, du milieu académique et des agences gouvernementales pour renforcer la cybersécurité du Royaume-Uni et de ses alliés.
Le Lasr collaborera avec les alliés de l’Otan pour contrer l’utilisation hostile de l’IA par des États comme la Russie ou la Corée du Nord.
À SURVEILLER : Résilience et infrastructures. La conférence a également abordé la nécessité de moderniser les infrastructures pour réduire les vulnérabilités et renforcer la résilience numérique. Plus tôt cette année, l'Otan a débloqué un financement de 1 milliard d'euros pour des technologies innovantes en IA, robotique et espace, grâce auquel plusieurs entreprises ont déjà reçu des investissements (lire Qant du 19 juin).
Comment évaluer correctement les LLM ? Avec des stats
Une étude d'Anthropic propose de renforcer l’évaluation des modèles de langage en introduisant des marges d’erreur et des outils statistiques pour mieux quantifier leurs performances et fiabilités.
L’IA passe le test • Qant, M. de R. avec Midjourney
L’évaluation des grands modèles de langage (LLM) repose généralement sur des métriques comme l'exactitude ou la précision. Ces méthodes, bien qu'efficaces pour comparer les performances entre modèles, négligent la variabilité des résultats obtenus. Autre problème, le fait que les modèles soient entraînés sur les données spécifiques des benchmarks pourrait expliquer la convergence observée de leurs résultats (à moins, bien sûr, que leurs performances soient effectivement en train de converger. D’où une frénésie d’activité dans le domaine).
Mi-novembre par exemple, la société de recherche Epoch AI a présenté FrontierMath, un benchmark mathématique qui a montré les limites importantes de modèles comme GPT-4o ou Gemini 1.5 Pro. A la différence des benchmarks existants, FrontierMath garde secrets ses problèmes.
Tout récemment, dans une étude intitulée Adding Error Bars to Evals, Evan Miller, chercheur chez Anthropic, propose une approche statistique innovante pour pallier ces lacunes.
200 millions dans l’IA pour le climat et l’énergie
La société de capital-risque californienne Blue Bear Capital a levé 200 millions de dollars (environ 186 M€) pour investir dans des start-ups qui utilisent l’intelligence artificielle dans les secteurs de l’énergie, des infrastructures et du climat. Cela comprend un fonds principal de 160 millions de dollars et 40 millions de dollars supplémentaires pour des investissements de suivi.
Le fonds cible des solutions numériques à faible intensité capitalistique, notamment des logiciels qui améliorent la gestion des actifs énergétiques comme les fermes solaires ou les réseaux de recharge pour véhicules électriques.
Contrairement aux approches traditionnelles qui favorisent les matériels coûteux et à long retour sur investissement, Blue Bear privilégie des cycles plus courts et des rendements élevés en se concentrant sur l’innovation logicielle. Le portefeuille restera limité à 15 entreprises.
À SURVEILLER : L’ours bleu, la licorne et la pensée magique. Tout a caractérisé l’IA jusqu’à présent, sauf une “faible intensité capitalistique”. On ne voit guère pourquoi il devrait en être autrement dans l’environnement. Mais on ne peut en revanche exclure que les bailleurs de fonds (LP) de Blue Bear aient été dissuadés par l’élection de Donald Trump.
Boston, Genysys Engine, SafeRent
L’IA qui repérait des animaux et des cancers… • Des chercheurs de l'université de Boston ont adapté un modèle d’IA, initialement conçu pour repérer des animaux camouflés, pour détecter des tumeurs cérébrales. Ce modèle, basé sur l’analyse des différences subtiles dans les images, a été réentraîné pour identifier des tumeurs sur des IRM cérébrales avec une précision atteignant 92,2 %. Grâce à cette méthode, combinée à des techniques d’explicabilité, l’IA peut non seulement détecter les tumeurs avec fiabilité, mais aussi expliquer les caractéristiques spécifiques utilisées pour ses diagnostics, ouvrant la voie à des outils assistés par IA dans la médecine. En savoir plus…
… Celle qui surveillait les écureuils… • Genysys Engine, une entreprise spécialisée dans les solutions technologiques pour la conservation de la faune, a développé un outil d'intelligence artificielle nommé Squirrel Agent. Cet outil est capable de distinguer les écureuils roux des écureuils gris avec une précision de 97 %. Actuellement testé sur plusieurs sites au Royaume-Uni en collaboration avec cinq associations de protection de la faune, Squirrel Agent vise à faciliter la surveillance et la gestion des populations d'écureuils. En savoir plus…
…Et celle qui ne peut plus noter les locataires • SafeRent, un outil américain basé sur l'IA qui permet aux propriétaires d'évaluer leurs locataires, cesse de noter les demandeurs utilisant des aides au logement. Une class-action, qui dénonçait la discrimination raciale et économique associée à cet outil, s’est conclut par un accord extrajudiciaire qui indemnise certaines victimes de ces pratiques. En savoir plus…
La roupie numérique interbancaire franchit les frontières
La Banque centrale de l’Inde (RBI) prévoit d’élargir sa plateforme de paiements transfrontaliers pour inclure de nouveaux partenaires commerciaux en Asie et au Moyen-Orient, selon Bloomberg. Cette initiative vise à permettre des règlements instantanés grâce à l’utilisation de monnaies numériques.
L’Inde a déjà des accords avec le Sri Lanka, le Bhoutan et le Népal, et envisage d’intégrer les Émirats arabes unis à ce programme de règlements. Actuellement limitée aux transactions entre banques, la monnaie numérique indienne pourrait à terme être étendue aux consommateurs, bien qu’aucun calendrier précis n’ait été annoncé.
À SURVEILLER : Adoption et Interopérabilité. Depuis le début de ses tests en 2022, la roupie indienne compte environ 5 millions d’utilisateurs dans le cadre d’un programme pilote. Des travaux sont également en cours pour rendre ces solutions compatibles avec les systèmes d’autres pays.
Proxie, un joli petit cobot
Collaborative Robotics vient de présenter un cobot avancé conçu pour assister les humains dans des secteurs comme la logistique, la santé ou l’industrie.
Collaborative Robotics, fondée en 2022 par Brad Porter, ancien responsable de la robotique chez Amazon, vient de présenter Proxie, un cobot (robot collaboratif) qui s’appuie sur des systèmes avancés d’intelligence artificielle, de mobilité et de manipulation pour s’intégrer dans des environnements complexes.
EN EXCLUSIVITÉ POUR LES ABONNES :
• Anthropic propose une évaluation plus rigoureuse des LLMs avec des marges d'erreur et intervalles de confiance.
• Collaborative Robotics présente son premier cobot.
À modèle probabiliste, évaluation probabiliste
Une étude d'Anthropic propose de renforcer l’évaluation des modèles de langage en introduisant des marges d’erreur et des outils statistiques pour mieux quantifier leurs performances et fiabilités.
L’IA passe le test • Qant, M. de R. avec Midjourney
L’évaluation des grands modèles de langage (LLM) repose généralement sur des métriques comme l'exactitude ou la précision. Ces méthodes, bien qu'efficaces pour comparer les performances entre modèles, négligent la variabilité des résultats obtenus. Autre problème, le fait que les modèles soient entraînés sur les données spécifiques des benchmarks pourrait expliquer la convergence observée de leurs résultats (à moins, bien sûr, que leurs performances soient effectivement en train de converger. D’où une frénésie d’activité dans le domaine).
...