AWS Inferentia

الحصول على أداء عالٍ وبأقل تكلفة في Amazon EC2 في الاستدلال عن طريق الذكاء الاصطناعي المولّد والتعلّم العميق

ابدأ استخدام رقائق AWS Inferentia باستخدام AWS Neuron

لماذا يُستخدم Inferentia؟

قامت AWS بتصميم شرائح AWS Inferentia بهدف توفير أداء عالٍ بأقل تكلفة في Amazon EC2 لتطبيقات الاستدلال بواسطة التعلّم العميق والذكاء الاصطناعي المولّد.

يعمل الجيل الأول من شريحة AWS Inferentia على تشغيل مثيلات Inf1 من سحابة الحوسبة المرنة لـ Amazon (Amazon EC2)، التي توفر معدل نقل أعلى بمقدار 2.3 ضعف وتكلفة أقل بنسبة تصل إلى 70% لكل استدلال مقارنةً بمثيلات Amazon EC2. عَمِدَ العديد من العملاء، ومن بينهم Finch AI وSprinklr وMoney Forward وAmazon Alexa، إلى استخدام مثيلات Inf1 وأدركوا مزاياها من حيث الأداء والتكلفة.

توفر شريحة AWS Inferentia2 معدل نقل أعلى يصل إلى 4 أضعاف وزمن استجابة أقل بمقدار يصل إلى 10 أضعاف مقارنةً بـ Inferentia. تم تحسين مثيلات Amazon EC2 Inf2 المستندة إلى Inferentia2 لنشر النماذج متزايدة التعقيد، مثل نماذج اللغة الكبيرة (LLM) ونماذج الانتشار الكامنة، على نطاق واسع. مثيلات Inf2 هي أول مثيلات محسّنة للاستدلال في Amazon EC2 لدعم الاستدلال الموزع القابل للتوسعة مع وجود اتصال فائق السرعة بين الشرائح. عَمِدَ العديد من العملاء، ومن بينهم Leonardo.ai وDeutsche Telekom وQualtrics، إلى استخدام مثيلات Inf2 في تطبيقات التعلّم العميق وتطبيقات الذكاء الاصطناعي المولّد الخاصة بهم.

تساعد AWS Neuron SDK المطورين على نشر النماذج على شرائح AWS Inferentia (وتدريبهم على شرائح AWS Trainium). إنه بطبيعته يتكامل مع الأطر الشهيرة، مثل PyTorch وTensorFlow، ولذا يُمكنك مواصلة استخدام التعليمة البرمجية الحالية ومهام سير العمل الحالية والتشغيل على شرائح Inferentia.

مزايا AWS Inferentia

مُحسَّن للحصول على معدل نقل مرتفع وزمن استجابة منخفض

تحتوي كل شريحة من شرائح Inferentia من الجيل الأول على أربعة من الجيل الأول من NeuronCores، ويحتوي كل مثيل EC2 Inf1 على ما يصل إلى 16 شريحة Inferentia. تحتوي كل شريحة Inferentia2 على اثنين من الجيل الثاني من NeuronCores، ويحتوي كل مثيل EC2 Inf2 على ما يصل إلى 12 شريحة Inferentia2. تدعم شريحة Inferentia2 (الخاصة بالذكاء الاصطناعي) ما يصل إلى 190 تيرافلوب في الثانية لأداء دقة FP16، مما يعزز كفاءة المعالجة الحسابية عالية الأداء. الجيل الأول من Inferentia يتميز بذاكرة DDR4 قدرها 8 جيجابايت لكل شريحة ويتميز أيضًا بقدر كبير من ذاكرة الرقاقة. يوفر Inferentia2 ذاكرة عرض النطاق العالي (HBM) قدرها 32 جيجابايت لكل شريحة، مما يزيد من إجمالي الذاكرة بمقدار 4 أضعاف وزيادة عرض النطاق الترددي للذاكرة بمقدار 10 أضعاف مقارنةً بـ Inferentia.

دعم متأصل لأطر تعلّم الآلة

إن مجموعة تطوير برمجيات AWS Neuron تتكامل بطبيعتها مع أُطر تعلّم الآلة الشهيرة مثل PyTorch وTensorFlow. مع AWS Neuron، يُمكنك استخدام هذه الأطر في نشر نماذج التعلّم العميق على النحو الأمثل على كل من شرائح AWS Inferentia، وقد تم تصميم Neuron بهدف الحد من تغيرات الأكواد والتأقلم أو الترابط مع الحلول الخاصة بالمورّد. يساعدك Neuron في تشغيل تطبيقات الاستدلال لمهام معالجة اللغة الطبيعية (NLP)/فهمها، والترجمة اللغوية، وتلخيص النصوص، وإنشاء مقاطع الفيديو والصور، والتعرّف على الكلام، والتخصيص، واكتشاف الاحتيال، وغير ذلك الكثير على شرائح Inferentia.

مجموعة واسعة من أنواع البيانات ذات البث التلقائي

الجيل الأول من Inferentia يدعم أنواع البيانات FP16 وBF16 وINT8. يُضيف Inferentia2 دعمًا إضافيًا لأنواع البيانات FP32 وTF32 ولنوع البيانات الجديد القابل للتكوين FP8 ‏(cFP8) لتزويد المطورين بقدر أكبر من المرونة لتحسين الأداء وزيادة الدقة. يأخذ AWS Neuron نماذج FP32 عالية الدقة ويُرسلها تلقائيًا إلى أنواع بيانات منخفضة الدقة وفي الوقت نفسه يزيد من الدقة ويُحسّن الأداء. يعمل البث التلقائي (Autocasting) على تقليل الوقت اللازم للتسويق عن طريق التخلص من الحاجة إلى إعادة التدريب بدقة أقل.

أحدث إمكانات التعلّم العميق

يضيف Inferentia2 تحسينات أجهزة لأحجام الإدخال الديناميكية والمُشغّلات المخصصة المكتوبة بلغة C++. ويدعم أيضًا التقريب التصادفي (العشوائي)، وهو طريقة للتقريب الاحتمالي تُمكّن من تحقيق أداء عالٍ ودقة أعلى مقارنةً بأنماط التقريب القديمة.

مصمم لتحقيق الاستدامة

توفر مثيلات Inf2 أداءً أفضل بنسبة تصل إلى 50% لكل واط مقارنةً بمثيلات Amazon EC2 لأنها هي وشرائح Inferentia2 الأساسية مصممة خصيصًا لتشغيل نماذج التعلّم العميق على نطاق واسع. تساعدك مثيلات Inf2 في تحقيق أهداف الاستدامة عند نشر النماذج الكبيرة جدًا.

مقاطع الفيديو

Behind the scenes look at Generative AI infrastructure at Amazon‏ (لمحة من خلف الكواليس عن البنية التحتية للذكاء الاصطناعي المولّد في Amazon.)

Introducing Amazon EC2 Inf2 instances powered by AWS Inferentia2 (تقديم مثيلات Amazon EC2 Inf2 المدعومة بـ AWS Inferentia2)

How four AWS customers reduced ML costs and drove innovation with AWS Inferentia (كيف تمكن أربعة عملاء من AWS من تقليل تكاليف تعلُّم الآلة وتحفيز الابتكار باستخدام AWS Inferentia)

الموارد

ضبط نماذج Llama 2 ونشرها بتكلفة ميسورة في Amazon SageMaker JumpStart باستخدام AWS Inferentia وAWS Trainium

قراءة المدونة

ضبط نماذج Llama 2 باستخدام QLoRA ونشرها على Amazon SageMaker باستخدام AWS Inferentia2

قراءة المدونة

تعظيم أداء Stable Diffusion (الانتشار المستقر) وخفض تكاليف الاستدلال باستخدام AWS Inferentia2

قراءة المدونة

تحقيق أداء عالٍ بأقل تكلفة في الاستدلال بالذكاء الاصطناعي المولّد باستخدام AWS Inferentia2 وAWS Trainium على Amazon SageMaker

قراءة المدونة

توفر ByteDance حوالي 60% من تكاليف الاستدلال مع تقليل زمن الاستجابة وزيادة معدل النقل باستخدام AWS Inferentia

قراءة المدونة

كيف خفضت Amazon Search تكاليف استدلال تعلم الآلة بنسبة 85% باستخدام AWS Inferentia

قراءة المدونة

Additional resources

استخدام AWS Neuron وبدء AWS Inferentia من داخل TensorFlow أو PyTorch أو MXNet

تعرّف على المزيد

Additional resources

خارطة ميزات AWS Neuron

تعرّف على المزيد

Additional resources

بدء الاستدلال على AWS Inferentia باستخدام هذه البرامج التعليمية السهلة

تعرّف على المزيد