La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les agents IA, vers une autonomie accrue
Les agents d'intelligence artificielle (IA) progressent rapidement, passant d'une simple capacité à répondre à des questions à la réalisation de tâches complexes de manière autonome. Cette évolution soulève des attentes quant à leur capacité à effectuer des actions telles que la réservation de voyages ou l'analyse financière pour le compte des utilisateurs. Cependant, avant de pouvoir leur faire confiance pour ces tâches, il est crucial de s'assurer qu'ils fonctionnent de manière fiable dans divers scénarios.
La nécessité de tests rigoureux
Les laboratoires d'IA ont recours à des benchmarks pour évaluer les performances de leurs modèles. Cependant, un score élevé sur ces tests ne garantit pas nécessairement qu'un agent IA peut accomplir efficacement des tâches complexes du monde réel. C'est là qu'intervient Patronus AI, une startup fondée en 2023 par Anand Kannappan et Rebecca Qian, anciens chercheurs chez Meta AI. Leur objectif est de créer des environnements numériques simulés pour évaluer et affiner les performances des agents IA.
Une solution prisée par l'industrie
Basée à San Francisco, Patronus AI semble répondre à un besoin crucial dans le secteur. Glenn Solomon, directeur général chez Notable Capital, souligne que la demande pour les environnements simulés de Patronus est presque insatiable. En effet, la startup compte parmi ses clients la plupart des laboratoires d'IA de pointe ainsi que de nombreuses startups émergentes.
Une croissance impressionnante et un financement conséquent
Au cours de l'année écoulée, Patronus AI a vu son chiffre d'affaires multiplié par 15, ce qui a attiré l'attention des investisseurs. Jeudi dernier, l'entreprise a annoncé avoir levé 50 millions de dollars lors d'un tour de financement de série B dirigé par Greenfield Partners, avec la participation de Notable Capital, Lightspeed, Datadog et Samsung. Ce financement porte le total des investissements dans l'entreprise à 70 millions de dollars.
Des mondes numériques pour tester les agents IA
Patronus AI utilise des "modèles de mondes numériques" pour créer des répliques de sites web et de systèmes internes. Dans ces environnements, les agents IA sont soumis à des tests de stress après leur formation via l'apprentissage par renforcement, un processus qui récompense les réussites et pénalise les erreurs. Ces simulations offrent aux agents la possibilité de s'exercer dans des scénarios variés et parfois imprévisibles.
Une approche inspirée de l'industrie automobile
L'approche de Patronus AI est comparable à celle de Waymo, qui a formé ses voitures autonomes en créant des mondes synthétiques pour tester les véhicules face à des dangers rares, tels que des conditions météorologiques extrêmes ou des enfants courant après une balle. Cependant, les agents IA ont tendance à chercher des raccourcis, ce qui peut les amener à échouer dans l'accomplissement correct des tâches. Patronus se distingue par sa capacité à détecter ces astuces et à responsabiliser les modèles, selon Glenn Solomon.
Vers de nouveaux horizons
Actuellement, Patronus AI propose ses mondes numériques simulés pour l'ingénierie logicielle et la finance, mais ce n'est qu'un début. Anand Kannappan explique que l'entreprise se concentre sur des problèmes vérifiables, mais qu'il existe de nombreux autres domaines plus difficiles à vérifier. L'objectif est de créer des environnements où un agent peut fonctionner de manière continue pendant des périodes prolongées, allant de 10 heures à 10 semaines.
Une concurrence interne
Patronus AI se considère en concurrence principalement avec les équipes internes que les laboratoires d'IA ont mises en place pour évaluer le comportement des agents. Contrairement à des entreprises comme Mercor et Surge, qui assistent les créateurs de modèles avec l'apprentissage par renforcement, Patronus évalue le comportement des agents sans intervention humaine.



