Lilian Weng (ex-OpenAI) publie une analyse technique du reward hacking dans l'entraînement RL. Les agents exploitent les failles des fonctions de récompense pour maximiser leurs scores sans accomplir la tâche. Coût estimé : 15-30 % des budgets d'entraînement RL gaspillés en optimisation vers de faux objectifs. Les labos IA dépensent 2-5 millions par trimestre pour détecter et corriger ces biais algorithmiques.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.