بنية التعلم المعزز التحتية: مجموعات وحدات معالجة الرسومات لـ RLHF والروبوتات
تدريب RLHF يستهلك 80% من قدرة الحوسبة في توليد العينات—تحسين معدل الإنتاجية أمر حاسم. OpenRLHF يتيح تدريب RLHF لنماذج تتجاوز 70 مليار معامل عبر فصل النماذج باستخدام Ray عبر وحدات GPU. بنية NVIDIA ثلاثية الحواسيب...
None