Aller au contenu
signals

Modal divise par 40 les cold starts GPU avec CUDA-checkpoint

Modal divise par 40 les démarrages à froid GPU, de 45s à 1,1s. Économie de 67$/jour sur 100k appels vs AWS Bedrock encore à 12-25s.

Par La Rédac.·0 min·

Modal annonce diviser par 40 les démarrages à froid d'inférence GPU grâce à LP, FUSE, C/R et CUDA-checkpoint. Les temps de démarrage passent de 45 secondes à 1,1 seconde pour un modèle 7B standard.

Cette optimisation infrastructure change l'économie du serverless GPU. À 2,40$/heure de H100, chaque seconde économisée représente 0,00067$ par invocation. Sur 100 000 appels journaliers (volume typique d'une API IA en production), Modal économise 67$ par jour en démarrages à froid. retour sur investissement client immédiat vs AWS Bedrock où les démarrages à froid restent à 12-25 secondes.

Newsletter

Cet article t'a intéressé ? Reçois les suivants.

Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.

Recherche : La Rédac. · Édition humaine · Publié le 19 mai 2026
Plus de signals