Llama.cpp annonce le support MTP (Multi-Token Prediction) en version beta, permettant d'optimiser l'inférence pour les modèles locaux. La fonctionnalité réduit la latence de 30% sur les tâches de génération longue.
L'enjeu coûts : les entreprises qui font tourner des LLMs on-premise économisent sur les frais API cloud. Un modèle 70B local avec MTP revient à 0,002$/token contre 0,03$ chez les fournisseurs cloud.
Impact : L'optimisation MTP rend viable l'auto-hébergement pour les workloads à fort volume, réduisant la dépendance aux APIs externes.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.