لماذا يُستخدم Inferentia؟
قامت AWS بتصميم شرائح AWS Inferentia بهدف توفير أداء عالٍ بأقل تكلفة في Amazon EC2 لتطبيقات الاستدلال بواسطة التعلّم العميق والذكاء الاصطناعي المولّد.
يعمل الجيل الأول من شريحة AWS Inferentia على تشغيل مثيلات Inf1 من سحابة الحوسبة المرنة لـ Amazon (Amazon EC2)، التي توفر معدل نقل أعلى بمقدار 2.3 ضعف وتكلفة أقل بنسبة تصل إلى 70% لكل استدلال مقارنةً بمثيلات Amazon EC2. عَمِدَ العديد من العملاء، ومن بينهم Finch AI وSprinklr وMoney Forward وAmazon Alexa، إلى استخدام مثيلات Inf1 وأدركوا مزاياها من حيث الأداء والتكلفة.
توفر شريحة AWS Inferentia2 معدل نقل أعلى يصل إلى 4 أضعاف وزمن استجابة أقل بمقدار يصل إلى 10 أضعاف مقارنةً بـ Inferentia. تم تحسين مثيلات Amazon EC2 Inf2 المستندة إلى Inferentia2 لنشر النماذج متزايدة التعقيد، مثل نماذج اللغة الكبيرة (LLM) ونماذج الانتشار الكامنة، على نطاق واسع. مثيلات Inf2 هي أول مثيلات محسّنة للاستدلال في Amazon EC2 لدعم الاستدلال الموزع القابل للتوسعة مع وجود اتصال فائق السرعة بين الشرائح. عَمِدَ العديد من العملاء، ومن بينهم Leonardo.ai وDeutsche Telekom وQualtrics، إلى استخدام مثيلات Inf2 في تطبيقات التعلّم العميق وتطبيقات الذكاء الاصطناعي المولّد الخاصة بهم.
تساعد AWS Neuron SDK المطورين على نشر النماذج على شرائح AWS Inferentia (وتدريبهم على شرائح AWS Trainium). إنه بطبيعته يتكامل مع الأطر الشهيرة، مثل PyTorch وTensorFlow، ولذا يُمكنك مواصلة استخدام التعليمة البرمجية الحالية ومهام سير العمل الحالية والتشغيل على شرائح Inferentia.