Un post LocalLLaMA collecte 38 upvotes pour créer un test de performance tokens/seconde ressenti versus technique. L'auteur teste 12 configurations matérielles avec des conversations réelles. Résultat : 15 tokens/sec = fluide, 8 tokens/sec = limite d'usage, 4 tokens/sec = inutilisable pour du brainstorming. Matériel champion : RTX 4090 atteint 47 tokens/sec avec Llama 3.2 70B quantized, coût configuration 2 200 dollars. Implication commerciale : les équipes locales ont besoin d'au minimum 8 tokens/sec par utilisateur pour rester productives, soit 1 400 dollars minimum de GPU par seat.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.