Tu veux les meilleurs outils IA avant les autres ?
On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les agents d'IA réalisent 16 % des missions freelance en 8 mois
Les agents d'IA peuvent désormais accomplir 16 % des missions freelance à un niveau de qualité professionnelle, contre 2,5 % il y a huit mois.
Le Remote Labor Index (RLI) mesure la fréquence à laquelle les agents d'IA terminent des projets freelance rémunérés avec une qualité professionnelle. En huit mois, le taux d'automatisation a plus que quadruplé.
Le RLI suit la capacité des agents d'IA à réaliser des travaux freelance réels et commercialement valables à un niveau de qualité qu'un client payant accepterait. L'indice couvre des domaines tels que :
- 3D et CAD
- Architecture
- Design graphique
- Vidéo et animation
- Audio
- Analyse de données
- Applications web
Il inclut 240 projets d'une valeur totale de 144 000 $, provenant de 358 freelances vérifiés. Des évaluateurs humains du Center for AI Safety notent chaque résultat par rapport à une norme de référence établie par un professionnel rémunéré. Le RLI a été développé en collaboration avec Scale Labs.
La métrique clé est le taux d'automatisation, c'est-à-dire la part de projets où le travail de l'IA est évalué au moins aussi bon que celui d'un humain.
Le taux d'automatisation passe de 2,5 à 16,1 %
Lorsque l'indice a été lancé pour la première fois, le meilleur agent d'IA automatisait seulement 2,5 % des projets. Selon les derniers résultats, Fable 5 atteint maintenant 16,1 %, le score le plus élevé jamais enregistré. C'est environ le double de 8,3 % d'Opus 4.8. GPT-5.5 se situe à 6,3 %. Tous les trois modèles surpassent chaque système précédemment testé. L'ancien leader, Opus 4.6 fonctionnant sur le cadre Claude Cowork, était à 4,17 %.
Fable 5 domine le Remote Labor Index à 16,1 %, soit environ le double du deuxième, Opus 4.8.
L'avancée a plus que quadruplé en moins de huit mois, selon les auteurs. Une mise en garde concernant le score de Fable 5 : seulement 218 des 240 projets ont pu être évalués avant que le gouvernement américain ne restreigne l'accès au modèle. Même dans le pire des cas, où Fable 5 échouerait sur chaque projet manquant, son taux serait encore de 14,6 %, supérieur à tout autre modèle.
Des exemples de tâches complexes
Une des tâches les plus complexes consiste à créer un plan d'étage dimensionné, des options d'agencement de meubles, et des rendus photoréalistes de salle de bain à partir d'un plan cadastral scanné, de photos de site et de mesures.
Cependant, les progrès ne suivent pas toujours les dates de sortie. Sur le classement complet de Scale Labs, le plus récent Gemini 3 Pro se situe près du bas avec seulement 1,25 %, derrière des systèmes beaucoup plus anciens.
Certaines exemples de l'étude montrent également où même les meilleurs modèles présentent encore des lacunes. Sur une tâche de design de bague, Fable 5 est clairement meilleur que les IA précédentes mais semble encore peu professionnel à un examen plus attentif. Sur un projet d'architecture, GPT-5.5 a simulé un rendu attrayant en utilisant un générateur d'images, tandis que son modèle 3D réel restait défectueux.
Les évaluateurs humains restent indispensables
L'équipe a testé si l'évaluation humaine coûteuse pouvait être remplacée par des juges IA. La réponse était claire : les juges IA ont attribué des notes beaucoup trop généreuses aux nouveaux modèles. Pour GPT-5.5, le score de l'évaluateur IA était presque trois fois trop élevé. Pour Opus 4.8, environ deux fois et demie. Le juge automatisé a bien obtenu l'ordre de classement correct, mais les chiffres réels étaient très éloignés.
La raison, selon CAIS : Pour juger équitablement le travail livré, il faut ouvrir les fichiers dans le bon logiciel professionnel, utiliser ce logiciel correctement, et former un jugement comme le ferait un client payant. Ce type d'utilisation pratique des logiciels est précisément ce que les agents d'IA actuels maîtrisent le moins. Le rendu simulé de GPT-5.5 en est un bon exemple : détecter la supercherie nécessite d'ouvrir le modèle 3D et d'inspecter la géométrie réelle.
Pour permettre aux modèles de montrer leur pleine capacité, l'équipe les exécute dans les mêmes outils que ceux utilisés quotidiennement par les développeurs, comme Claude Code et Codex CLI. Ceux-ci ont été étendus avec la capacité de faire fonctionner des programmes graphiques directement. L'environnement de travail est une machine virtuelle Linux chargée de plus de 30 applications professionnelles, y compris Blender, GIMP, et Audacity. Chaque projet dispose de jusqu'à 24 heures de temps de calcul. La configuration utilise également une boucle critique : un second agent IA examine la sortie aussi rigoureusement qu'un client exigeant, et le premier agent révise ensuite son travail.
L'IA échoue encore à atteindre une qualité professionnelle sur la plupart des projets. Aucun des trois résultats de Fable 5 présentés dans le billet de blog ne passerait pour un travail terminé. Cependant, l'augmentation des taux d'automatisation en l'espace d'une seule année est rapide, affirment les auteurs, et reflète directement la vitesse à laquelle l'automatisation du travail à distance progresse.

