Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way
Gimlet Labs résout le goulot d'étranglement de l'inférence IA de manière étonnamment élégante
Le professeur adjoint de Stanford et entrepreneur à succès Zain Asgar vient de lever 80 millions de dollars lors d'un tour de financement de série A pour une startup qui résout le problème du goulot d'étranglement de l'inférence IA de manière astucieuse. Ce tour a été dirigé par Menlo Ventures.
La société, Gimlet Labs, a créé ce qu'elle prétend être le premier et unique « cloud d'inférence multi-silicon », un logiciel qui permet d'exécuter simultanément une charge de travail IA sur différents types de matériel. Il peut répartir le travail d'une application IA à la fois sur des CPU traditionnels et des GPU optimisés pour l'IA, ainsi que sur des systèmes à haute mémoire.
« Nous fonctionnons essentiellement sur tout le matériel disponible », a déclaré Asgar à TechCrunch.
Un seul agent peut enchaîner plusieurs étapes, et chacune « nécessite un matériel différent : l'inférence est liée au calcul ; le décodage est lié à la mémoire ; et les appels d'outils sont liés au réseau », écrit Tim Tully, investisseur principal chez Menlo, dans un article de blog sur le financement.
Aucun processeur ne fait encore tout, mais à mesure que de nouveaux matériels sont déployés et que les GPU vieillissants sont réaffectés, « la flotte multi-silicon est prête — il lui manque juste la couche logicielle pour faire fonctionner tout cela. » C'est ce que Tully pense que Gimlet Labs offre.
Si la tendance actuelle à déployer plus de puissance de calcul se poursuit, McKinsey estime que les dépenses des centres de données atteindront près de 7 trillions de dollars d'ici 2030. Asgar indique que les applications n'utilisent que « entre 15 et 30 pour cent » du matériel déjà déployé.
« Une autre façon de voir cela : vous gaspillez des centaines de milliards de dollars parce que vous laissez simplement des ressources inactives », a-t-il déclaré. « Notre objectif était essentiellement de déterminer comment rendre les charges de travail IA 10 fois plus efficaces qu'aujourd'hui. »
Asgar et ses cofondateurs, Michelle Nguyen, Omid Azizi et Natalie Serrino, se sont donc attelés à construire un logiciel d'orchestration qui découpe les charges de travail afin qu'elles puissent être réparties simultanément sur toutes sortes de matériel.
Gimlet Labs affirme qu'elle accélère de manière fiable l'inférence IA de 3 à 10 fois pour le même coût et la même puissance. Gimlet dit même pouvoir découper le modèle sous-jacent afin qu'il fonctionne sur différentes architectures, en utilisant le meilleur processeur pour chaque partie du modèle.
La société a déjà établi des partenariats avec des fabricants de puces tels que NVIDIA, AMD, Intel, ARM, Cerebras et d-Matrix.
Le produit de Gimlet, proposé soit sous forme de logiciel, soit via une API vers son propre Gimlet Cloud, n'est pas destiné aux développeurs d'applications IA de base. Il s'adresse aux plus grands laboratoires de modèles IA et centres de données.
La société a été lancée publiquement en octobre avec, selon ses dires, des revenus à huit chiffres dès le départ (donc au moins 10 millions de dollars). Asgar a déclaré que sa base de clients avait plus que doublé au cours des quatre derniers mois et comprend désormais un important fabricant de modèles et une très grande entreprise de cloud computing, bien qu'il ait refusé de les nommer.
Les cofondateurs avaient précédemment travaillé ensemble chez Pixie, une startup qui a créé un outil d'observabilité open source pour Kubernetes. Pixie a été acquise par New Relic en 2020, seulement deux mois après son lancement avec un tour de financement de 9 millions de dollars dirigé par Benchmark. (La technologie de Pixie fait maintenant partie de l'organisation open source qui supervise Kubernetes.)
Après qu'Asgar ait rencontré par hasard Tully il y a environ un an et ait également reçu des investissements d'anges de la part de professeurs de Stanford, les VC ont commencé à l'appeler. Après le lancement, une feuille de termes est arrivée sur le bureau d'Asgar. Lorsque les VC ont appris qu'Asgar examinait des offres, « nous avons eu un assez grand afflux de financements », et le tour a rapidement été sursouscrit, a-t-il déclaré.
Avec le précédent financement de départ, la startup a maintenant levé un total de 92 millions de dollars, y compris de nombreux investisseurs d'anges comme Bill Coughran de Sequoia, le professeur de Stanford Nick McKeown, l'ancien PDG de VMware Raghu Raghuram et le PDG d'Intel Lip-Bu Tan. La société emploie actuellement 30 personnes.
D'autres investisseurs incluent Factory, qui a dirigé le financement de départ, Eclipse Ventures, Prosperity7 et Triatomic.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.