DeepSeek 4 Flash collecte 7 591 étoiles GitHub pour son moteur d'inférence Metal local. L'implémentation par antirez (créateur Redis) permet de faire tourner le modèle 16B sur Mac M3 à 47 jetons/seconde. Comparaison : llama.cpp sur le même matériel plafonne à 23 jetons/sec. Le chiffre clé : DeepSeek 4 Flash coûte 0,14 $ par million de jetons en local contre 2,10 $ via API OpenAI. Implication : les modèles locaux optimisés cassent définitivement l'économie des API cloud pour les cas d'utilisation intensifs.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.