Modal annonce diviser par 40 les démarrages à froid d'inférence GPU grâce à LP, FUSE, C/R et CUDA-checkpoint. Les temps de démarrage passent de 45 secondes à 1,1 seconde pour un modèle 7B standard.
Cette optimisation infrastructure change l'économie du serverless GPU. À 2,40$/heure de H100, chaque seconde économisée représente 0,00067$ par invocation. Sur 100 000 appels journaliers (volume typique d'une API IA en production), Modal économise 67$ par jour en démarrages à froid. retour sur investissement client immédiat vs AWS Bedrock où les démarrages à froid restent à 12-25 secondes.
Newsletter
Cet article t'a intéressé ? Reçois les suivants.
Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.