Amazon SageMaker HyperPod

Réduisez jusqu’à 40 % le temps nécessaire à l’entraînement des modèles de fondation et mettez à l’échelle efficacement sur plus d’un millier d’accélérateurs d’IA

Qu’est-ce qu’Amazon SageMaker HyperPod ?

Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création et à l’optimisation d’une infrastructure de machine learning (ML). Le service est préconfiguré avec les bibliothèques d’entraînement distribué de SageMaker. Ainsi, vous pouvez répartir automatiquement les charges de travail d’entraînement sur plus d’un millier d’accélérateurs d’IA de manière à traiter les charges de travail en parallèle, ce qui permet d’améliorer les performances du modèle. SageMaker HyperPod garantit la continuité de votre entraînement FM en enregistrant régulièrement des points de contrôle. Il détecte les défaillances matérielles, répare ou remplace l’instance défectueuse et reprend automatiquement l’entraînement au dernier point de contrôle enregistré, vous évitant ainsi d’avoir à gérer manuellement ce processus. L’environnement résilient vous permet d’entraîner des modèles pendant des semaines ou des mois sans interruption dans un système distribué, et de réduire jusqu’à 40 % le temps nécessaire à l’entraînement. SageMaker HyperPod est également hautement personnalisable, ce qui vous permet d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation, et de partager facilement la capacité de calcul entre les différentes charges de travail, de l’entraînement à grande échelle jusqu’à l’inférence.

Avantages de SageMaker HyperPod

Amazon SageMaker HyperPod est préconfiguré avec les bibliothèques d'entraînement distribuées Amazon SageMaker, ce qui vous permet de répartir automatiquement vos modèles et jeux de données d'entraînement entre les instances de cluster AWS afin de vous aider à mettre à l'échelle efficacement les charges de travail de formation.
Les bibliothèques d'entraînement distribué Amazon SageMaker optimisent votre travail de formation sur l'infrastructure réseau AWS et la topologie des clusters grâce à deux techniques : le parallélisme des données et le parallélisme des modèles. Le parallélisme des modèles divise les modèles trop grands pour tenir sur un seul GPU en plusieurs parties plus petites avant de les répartir sur plusieurs GPU à entraîner. Le parallélisme des données divise les jeux de données volumineux pour s'entraîner simultanément afin d'améliorer la vitesse d'entraînement.
SageMaker HyperPod crée un environnement d'entraînement plus résilient en détectant, diagnostiquant et corrigeant automatiquement les défaillances, ce qui vous permet d'entraîner des FM en continu pendant des mois sans interruption.