Infraestructura de Aprendizaje por Refuerzo: Clústeres de GPU para RLHF y Robótica
El entrenamiento RLHF dedica el 80% del cómputo a la generación de muestras—la optimización del rendimiento es crítica. OpenRLHF permite RLHF con más de 70B de parámetros mediante separación de modelos basada en Ray a través de GPUs. Arquitectura de tres computadoras de NVIDIA: DGX para entrenamiento, Omniverse para simulación, Jetson Thor para inferencia en robots. La aceleración con vLLM mejora drásticamente el rendimiento en la generación de muestras.
None