00 — Méthodologie

Comment on calcule
nos verdicts.

Chaque score Skeyli est reproductible. Nous publions la pondération, les benchmarks utilisés, les paramètres de test et la date exacte. Un verdict sans méthodologie, c'est une opinion.

Pondération des critères

Raisonnement / Fidélité

30%

50 prompts standardisés (logique, maths, compréhension). Score = % de réponses correctes vérifiées manuellement.

Code / Détails

25%

20 tâches de génération (CRUD, debugging, refactoring). Score = % first-try sans correction humaine.

Créativité / Style

15%

10 prompts créatifs (fiction, copywriting, brainstorm). Évaluation subjective par 3 testeurs, moyenne harmonique.

Vitesse

15%

Latence médiane sur 50 requêtes (tokens/seconde). Normalisé sur échelle 0-100, benchmark = Claude 3.5 Sonnet.

Coût

15%

Prix par million de tokens (input + output pondéré 1:3). Inversé : le moins cher = 100. Benchmark = GPT-4o mini.

Protocole de test

Paramètres fixes : Chaque test précise le modèle exact (version + date), la température, le max_tokens, et le system prompt utilisé. Ces paramètres sont affichés dans chaque slide de test.

Reproductibilité : Nos prompts de test sont publics. Température 0 pour les tests de raisonnement et code (déterminisme). Température 0.9 pour la créativité. Chaque test peut être reproduit avec les mêmes paramètres.

Score final : Moyenne pondérée des 5 critères. Score sur 100. Les poids sont fixes pour une catégorie donnée (LLM, Image, Audio, Agent) mais les critères s'adaptent au domaine.

Mise à jour : Les verdicts portent une date. Un modèle peut être re-testé si une mise à jour majeure est publiée. L'ancien verdict reste accessible en archive.

Limites assumées

Les scores de créativité et style comportent une part subjective. Nous la réduisons en utilisant 3 évaluateurs indépendants et la moyenne harmonique, mais elle ne disparaît pas.

Les benchmarks de coût évoluent avec les tarifs des fournisseurs. Les scores sont datés et peuvent devenir obsolètes en 3-6 mois.

Nous ne testons pas les modèles en contexte enterprise (rate limits, SLA, compliance). Nos tests reflètent l'usage individuel ou small team.

Protocole Arena

Principe : Un prompt unique, deux modèles concurrents. Même paramètres, même moment, même infrastructure. On mesure le temps de génération, le coût réel (tokens ou crédits API), et la qualité du rendu.

Sélection des modèles : On oppose deux modèles du même segment (ex. FLUX vs Midjourney pour l'image, Claude vs GPT pour le texte). Le choix est guidé par l'actualité : nouvelle version, changement de prix, ou demande de la communauté.

Verdict : Pas de "gagnant" absolu. On donne 3 cas d'usage concrets où chaque modèle excelle, le ratio coût/temps, et notre choix par défaut avec la raison.

Protocole Lab

Principe : Un modèle, un test complet. On lui soumet entre 3 et 6 épreuves concrètes (prompts réels, pas des benchmarks marketing) et on note chaque critère sur 100.

Critères par catégorie : LLM (Raisonnement, Code, Créativité, Vitesse, Coût) · Image (Fidélité, Détails, Cohérence, Vitesse, Coût) · Vidéo (Qualité, Mouvement, Cohérence, Contrôle, Coût) · Musique (Qualité audio, Style, Paroles, Variété, Coût) · Agent (Autonomie, Fiabilité, Scope, Vitesse, Coût) · Code (Précision, Autonomie, Debugging, Vitesse, Coût).

Score final : Moyenne pondérée des 5 critères de la catégorie. Les slides de test montrent le prompt exact, la réponse brute, les métriques (temps, tokens, coût) et les annotations ligne par ligne.

Méthodologie V1 · Avril 2026

Comment on calculenos verdicts.