GPU-Firmware- und Treiberverwaltung: Wartung von Flotten mit über 10.000 GPUs
ByteDance entwickelt automatische Fehlererkennung und schnelle Wiederherstellung, nachdem festgestellt wurde, dass einzelne langsame GPUs ganze verteilte Trainingsjobs verlangsamen. Der R580-Treiberzw...