Huawei sort KVarN, un serveur vLLM qui quantifie le cache KV. Résultat : 40% de réduction sur les coûts d'inférence LLM en production. Les providers cloud tremblent.
Cette optimisation attaque directement la rentabilité d'OpenAI et Anthropic en cassant leurs marges d'infrastructure. Huawei vise les déployements locaux enterprise qui veulent échapper aux APIs payantes.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.