Amazon SageMaker HyperPod

Reduzieren Sie den Zeitaufwand für das Training von Fundamentmodellen um bis zu 40 % und skalieren Sie effizient über mehr als tausend KI-Beschleuniger

Was ist Amazon SageMaker HyperPod?

Mit Amazon SageMaker HyperPod entfällt die undifferenzierte Schwerstarbeit, die mit der Entwicklung und Optimierung der Machine Learning (ML)-Infrastruktur verbunden ist. Der Service ist mit den verteilten Trainingsbibliotheken von SageMaker vorkonfiguriert, die es Ihnen ermöglichen, Trainings-Workloads automatisch auf über Tausend KI-Beschleunigern aufzuteilen, so dass Workloads für eine verbesserte Modellleistung parallel verarbeitet werden können. SageMaker HyperPod sorgt dafür, dass Ihr FM-Training nicht unterbrochen wird, indem es regelmäßig Checkpoints speichert. Es erkennt automatisch einen Hardwarefehler, wenn dieser auftritt, repariert oder ersetzt die fehlerhafte Instance und setzt das Training ab dem zuletzt gespeicherten Checkpoint fort, sodass Sie diesen Vorgang nicht mehr manuell verwalten müssen. Die robuste Umgebung ermöglicht es Ihnen, Modelle wochen- oder monatelang in einer verteilten Umgebung ohne Unterbrechung zu trainieren und so die Trainingszeit um bis zu 40 % zu reduzieren. SageMaker HyperPod ist außerdem hochgradig anpassbar, sodass Sie FM-Workloads effizient ausführen und skalieren und Rechenkapazität problemlos zwischen verschiedenen Workloads teilen können, von groß angelegten Trainings bis hin zur Inferenz.

Vorteile von SageMaker HyperPod

Amazon SageMaker HyperPod ist mit verteilten Trainingsbibliotheken von Amazon SageMaker vorkonfiguriert, sodass Sie Ihre Modelle und Trainingsdatensätze automatisch auf mehrere AWS-Cluster-Instances aufteilen können und so eine effiziente Skalierung der Trainingsworkloads erzielen.
Die verteilten Trainingsbibliotheken von Amazon SageMaker optimieren Ihren Trainingsauftrag für die AWS-Netzwerkinfrastruktur und Clustertopologie durch zwei Techniken: Datenparallelität und Modellparallelität. Bei der Modellparallelität werden Modelle, die für eine einzelne GPU zu groß sind, in kleinere Teile unterteilt, ehe sie für das Training auf mehrere GPUs verteilt werden. Bei der Datenparallelität werden große Datensätze aufgeteilt, um sie gleichzeitig zu trainieren und so die Trainingsgeschwindigkeit zu erhöhen.
SageMaker HyperPod ermöglicht eine belastbarere Trainingsumgebung, indem es Fehler automatisch erkennt, diagnostiziert und behebt, sodass Sie FMs über Monate hinweg ohne Unterbrechung trainieren können.