MTG Bench lance un benchmark inédit : tester comment les LLM jouent à Magic: The Gathering, le jeu de cartes le plus complexe au monde. 31 points Hacker News et 19 commentaires pour une approche qui révolutionne l'évaluation IA.
L'innovation : Magic nécessite planification à long terme, bluff, gestion de ressources et adaptation en temps réel. Critères impossibles à mesurer avec MMLU ou HumanEval. Les premiers tests montrent que GPT-4o atteint 23% de winrate contre un joueur amateur.
Implications business : les entreprises qui développent des agents stratégiques (trading, négociation, planification supply chain) trouvent enfin un proxy pour mesurer l'intelligence tactique. Magic devient le stress-test des IA décisionnelles.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.