SWE Bench, référence pour évaluer les capacités de programmation IA, est désormais considéré comme "benchmaxxé" par la communauté LocalLLaMA. Les modèles optimisent pour ce test spécifique plutôt que pour des compétences générales de programmation.
Conséquence business : les entreprises qui recrutent des développeurs IA sur la base des scores SWE Bench risquent de payer 40% plus cher pour des compétences non transférables. Coût moyen d'un développeur IA senior mal évalué : 180 000 dollars annuels contre 130 000 pour un profil équivalent.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.