Qu’est-ce qu’Amazon SageMaker HyperPod ?
Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création et à l’optimisation d’une infrastructure de machine learning (ML). Le service est préconfiguré avec les bibliothèques d’entraînement distribué de SageMaker. Ainsi, vous pouvez répartir automatiquement les charges de travail d’entraînement sur plus d’un millier d’accélérateurs d’IA de manière à traiter les charges de travail en parallèle, ce qui permet d’améliorer les performances du modèle. SageMaker HyperPod garantit la continuité de votre entraînement FM en enregistrant régulièrement des points de contrôle. Il détecte les défaillances matérielles, répare ou remplace l’instance défectueuse et reprend automatiquement l’entraînement au dernier point de contrôle enregistré, vous évitant ainsi d’avoir à gérer manuellement ce processus. L’environnement résilient vous permet d’entraîner des modèles pendant des semaines ou des mois sans interruption dans un système distribué, et de réduire jusqu’à 40 % le temps nécessaire à l’entraînement. SageMaker HyperPod est également hautement personnalisable, ce qui vous permet d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation, et de partager facilement la capacité de calcul entre les différentes charges de travail, de l’entraînement à grande échelle jusqu’à l’inférence.