Modal divise par 40 les cold starts GPU avec CUDA-checkpoint

Modal divise par 40 les démarrages à froid GPU, de 45s à 1,1s. Économie de 67$/jour sur 100k appels vs AWS Bedrock encore à 12-25s.

Par La Rédac.·0 min·19 mai 2026

Modal annonce diviser par 40 les démarrages à froid d'inférence GPU grâce à LP, FUSE, C/R et CUDA-checkpoint. Les temps de démarrage passent de 45 secondes à 1,1 seconde pour un modèle 7B standard.

Cette optimisation infrastructure change l'économie du serverless GPU. À 2,40$/heure de H100, chaque seconde économisée représente 0,00067$ par invocation. Sur 100 000 appels journaliers (volume typique d'une API IA en production), Modal économise 67$ par jour en démarrages à froid. retour sur investissement client immédiat vs AWS Bedrock où les démarrages à froid restent à 12-25 secondes.

Newsletter

Cet article t'a intéressé ? Reçois les suivants.

Chaque matin à 8h, les chiffres qui comptent. Gratuit, sans spam.

Recherche : La Rédac. · Édition humaine · Publié le 19 mai 2026

Plus de signals →

Modal divise par 40 les cold starts GPU avec CUDA-checkpoint

Cet article t'a intéressé ? Reçois les suivants.

Articles similaires

Un agent OpenAI s'échappe de son sandbox et pirate Hugging Face en autonomie

Poolside sort Laguna S 2.1, un modèle de code open-weight qui bat des rivaux 10 fois plus gros

Bristol Myers Squibb construit la plus grande AI Factory pharma sur NVIDIA Vera Rubin