Khắc phục sự cố cụm GPU: Các vấn đề thường gặp và cẩm nang xử lý

Sự cố làm mát bằng chất lỏng hiện đang dẫn đầu danh mục sự cố—vấn đề CDU, nhiễm bẩn chất làm mát, bọt khí. NVIDIA DCGM 3.3+ đang cải thiện phạm vi chẩn đoán cho H100/H200. Mã lỗi XID được cập nhật cho kiến trúc Blackwell...

Blake Crosley

Feb 25, 2026 12 min read Disclaimer

Khắc phục sự cố cụm GPU: Các vấn đề thường gặp và cẩm nang xử lý

Cập nhật ngày 8 tháng 12 năm 2025

Cập nhật tháng 12 năm 2025: Sự cố làm mát bằng chất lỏng hiện đang dẫn đầu danh mục sự cố—vấn đề CDU, nhiễm bẩn chất làm mát, bọt khí. NVIDIA DCGM 3.3+ đang cải thiện phạm vi chẩn đoán cho H100/H200. Mã lỗi XID được cập nhật cho kiến trúc Blackwell. Các mẫu lỗi bộ nhớ (sửa lỗi ECC, tái ánh xạ hàng) ngày càng được sử dụng nhiều để phát hiện sự cố dự đoán. Chẩn đoán NVLink rất cần thiết cho các vấn đề huấn luyện đa GPU.

Cụm GPU gặp sự cố khác với hạ tầng tính toán truyền thống. Một GPU suy giảm hiệu năng trong cụm huấn luyện 512 node có thể làm giảm thông lượng tổng thể 40%. Lỗi bộ nhớ có thể chấp nhận được trong các khối lượng công việc CPU lại gây ra lỗi huấn luyện ngay lập tức. Các đỉnh độ trễ mạng ở mức micro giây phá hủy hiệu quả huấn luyện phân tán. Cẩm nang này cung cấp các phương pháp hệ thống để chẩn đoán và giải quyết các chế độ lỗi đặc thù của hạ tầng GPU.

Các mẫu lỗi phần cứng và chẩn đoán

Lỗi phần cứng GPU biểu hiện qua ba mẫu chính: lỗi tức thì, hiệu năng suy giảm và lỗi gián đoạn. Lỗi tức thì thường kích hoạt lỗi XID trong các triển khai NVIDIA, với XID 79 (GPU đã rời khỏi bus) ảnh hưởng đến 3,2% triển khai H100 trong năm đầu tiên theo báo cáo hạ tầng của Meta. Những lỗi này yêu cầu cô lập có hệ thống để xác định nguyên nhân gốc rễ.

NVIDIA Data Center GPU Manager (DCGM) cung cấp chẩn đoán phần cứng toàn diện thông qua lệnh dcgmi diag. Chẩn đoán Cấp độ 3 chạy trong 12 phút, kiểm tra băng thông bộ nhớ, thông lượng PCIe, kết nối NVLink và hành vi nhiệt dưới tải. Đội GPU Azure của Microsoft chạy chẩn đoán DCGM trên 100.000 GPU mỗi đêm, xác định phần cứng suy giảm trước khi ảnh hưởng đến khách hàng. Quy trình tự động của họ loại bỏ GPU có hiệu năng suy giảm 15% khỏi nhóm sản xuất.

Lỗi bộ nhớ chiếm ưu thế trong thống kê lỗi GPU. Bộ nhớ băng thông cao (HBM) trong GPU H100 hoạt động ở 3,35TB/s, khiến nó dễ bị cả lỗi cứng và lỗi mềm. ECC (Mã sửa lỗi) bắt lỗi một bit, nhưng lỗi hai bit không thể sửa (DBE) yêu cầu thay thế GPU ngay lập tức. Phân tích của Google Cloud cho thấy lỗi HBM tăng theo hàm mũ trên 75°C, với tỷ lệ lỗi tăng gấp đôi cho mỗi 5°C tăng vượt ngưỡng này.

Lỗi giao diện PCIe biểu hiện dưới dạng suy giảm băng thông hoặc mất liên kết hoàn toàn. Lệnh nvidia-smi -q hiển thị trạng thái liên kết PCIe, cho thấy thế hệ và độ rộng hiện tại. GPU H100 yêu cầu PCIe Gen5 x16 cho băng thông đầy đủ 128GB/s. Suy giảm xuống tốc độ Gen4 làm giảm băng thông xuống 64GB/s, ảnh hưởng đến thời gian tải mô hình 50%. Lambda Labs phát hiện 8% máy chủ GPU của họ hoạt động ở tốc độ PCIe giảm do cấu hình BIOS sai, tốn 2,3 triệu đô la hàng năm do giảm mức độ sử dụng.

Lỗi cung cấp điện tạo ra các vấn đề hiệu năng tinh vi trước khi lỗi hoàn toàn. Các mô-đun điều chỉnh điện áp (VRM) trên bo mạch H100 xử lý 700A ở điện áp lõi 1,1V. VRM suy giảm gây ra giảm tốc do điện, làm giảm tần số GPU từ 1,98GHz xuống thấp nhất 1,2GHz. Các công cụ giám sát phải theo dõi cả tiêu thụ điện năng tức thời và trung bình. CoreWeave triển khai giám sát điện vi sai, so sánh các khối lượng công việc giống hệt nhau trên các GPU để xác định suy giảm cung cấp điện 5% trước khi ảnh hưởng đến khách hàng.

Vấn đề driver và firmware

Không khớp phiên bản driver gây ra 31% vấn đề cụm GPU theo thống kê hỗ trợ của NVIDIA. Các ứng dụng CUDA được biên dịch cho các phiên bản driver cụ thể gặp lỗi bí ẩn khi cập nhật driver xảy ra. Công cụ nvidia-smi hiển thị phiên bản driver 545.23.08, nhưng các ứng dụng có thể yêu cầu 535.104.12 cho các tính năng CUDA cụ thể. Cố định phiên bản ngăn cập nhật tự động nhưng yêu cầu quản lý bản vá bảo mật thủ công.

Đồng bộ hóa firmware trên các cụm được chứng minh là quan trọng cho huấn luyện phân tán. Không khớp firmware NVLink giữa các GPU khiến các hoạt động tập hợp thất bại với lỗi NCCL khó hiểu. Lệnh nvidia-smi -q | grep "VBIOS Version" hiển thị các phiên bản firmware phải khớp chính xác để có hiệu năng tối ưu. Các cụm huấn luyện GPT-4 của OpenAI chuẩn hóa trên các phiên bản firmware cụ thể, với bất kỳ sai lệch nào kích hoạt cách ly node tự động.

Rò rỉ bộ nhớ driver tích lũy sau nhiều tuần hoạt động. Tạo ngữ cảnh CUDA mà không dọn dẹp đúng cách tiêu thụ bộ nhớ hệ thống, cuối cùng gây ra lỗi hết bộ nhớ mặc dù còn VRAM khả dụng. Lệnh nvidia-smi hiển thị 0MB đã sử dụng, nhưng lsof tiết lộ hàng nghìn file descriptor mồ côi. Hạ tầng của Anthropic tự động khởi động lại driver GPU khi hiển thị hơn 1000 file descriptor mở, ngăn cạn kiệt bộ nhớ.

Xung đột mô-đun kernel giữa nouveau (mã nguồn mở) và driver NVIDIA độc quyền tạo ra lỗi khởi tạo. Lệnh lsmod | grep nouveau tiết lộ các mô-đun xung đột phải được đưa vào danh sách đen. Hệ thống Ubuntu 22.04 yêu cầu đưa vào danh sách đen rõ ràng trong /etc/modprobe.d/blacklist-nouveau.conf, sau đó là update-initramfs -u để ngăn tải trong quá trình khởi động. Vấn đề này ảnh hưởng đến 12% triển khai mới theo dữ liệu hỗ trợ của Canonical.

Cấu hình sai runtime container ngăn truy cập GPU mặc dù đã cài đặt driver đúng. NVIDIA Container Toolkit phiên bản 1.14.0 giới thiệu các thay đổi phá vỡ yêu cầu lựa chọn thiết bị rõ ràng thông qua biến môi trường NVIDIA_VISIBLE_DEVICES. Container Docker được khởi động mà không có cờ --gpus all dường như hoạt động nhưng thực hiện tính toán chỉ CPU ở tốc độ 1/100 kỳ vọng. Các triển khai Kubernetes yêu cầu giới hạn tài nguyên nvidia.com/gpu trong đặc tả pod để lập lịch GPU đúng cách.

Vấn đề quản lý nhiệt

Giảm tốc do nhiệt làm giảm hiệu năng GPU trước khi kích hoạt tắt máy an toàn. GPU H100 giảm tốc ở 83°C, giảm tốc độ xung nhịp 15MHz cho mỗi độ trên ngưỡng. Các triển khai sản xuất nên duy trì nhiệt độ dưới 75°C để có hiệu năng tối ưu. Lệnh nvidia-smi -q -d TEMPERATURE cung cấp nhiệt độ hiện tại, tối đa và ngưỡng giảm tốc để giám sát chủ động.

Sự cố làm mát bằng chất lỏng đặt ra những thách thức chẩn đoán độc đáo. Suy giảm tốc độ dòng chảy 20% làm tăng nhiệt độ GPU 8-10°C. Cảm biến áp suất tại các đầu ra CDU (Đơn vị phân phối chất làm mát) nên duy trì 30-35 PSI cho dòng chảy tối ưu. Các cụm làm mát bằng chất lỏng của Microsoft sử dụng giám sát áp suất vi sai, cảnh báo khi chênh lệch áp suất vượt quá 5 PSI giữa ống cấp và ống hồi. Nhiễm bẩn hạt gây ra 60% tắc nghẽn dòng chảy, yêu cầu thay bộ lọc hàng quý.

Điểm nóng phát triển từ việc bôi keo tản nhiệt không đều hoặc lắp tấm lạnh. Hình ảnh nhiệt tiết lộ chênh lệch nhiệt độ vượt quá 15°C trên các die GPU. Lắp đặt đúng cách yêu cầu mô-men xoắn 35 in-lbs trên các ốc vít giữ, áp dụng theo mẫu chéo để đảm bảo áp lực đều. Quy trình sản xuất của Supermicro bao gồm xác nhận nhiệt cho thấy biến thiên dưới 5°C trên các die, với việc lắp lại yêu cầu cho các chênh lệch lớn hơn.

Biến đổi nhiệt độ môi trường giữa các khu vực cụm tạo ra mất cân bằng hiệu năng. GPU trong các hành lang nóng đạt 35°C môi trường giảm tốc thường xuyên hơn 20% so với những GPU ở 25°C. Mô hình động lực học chất lỏng tính toán (CFD) xác định các vùng tuần hoàn nơi không khí thải đi vào lại đường hút. Các trung tâm dữ liệu của Facebook sử dụng các giải pháp ngăn cách duy trì độ đồng đều nhiệt độ 3°C trên 10.000 triển khai GPU.

Lỗi quạt lan truyền qua các triển khai GPU dày đặc. Mỗi GPU H100 dựa vào quạt hệ thống cung cấp 200 CFM luồng không khí. Lỗi một quạt làm tăng nhiệt độ GPU liền kề 5-7°C. Cấu hình quạt dự phòng (N+1) ngăn các sự kiện nhiệt, nhưng yêu cầu thêm 20% điện năng. Bảo trì dự đoán sử dụng biến đổi tốc độ quạt xác định vòng bi hỏng 30 ngày trước khi lỗi hoàn toàn, cho phép thay thế chủ động.

Khắc phục sự cố mạng và kết nối

Các vấn đề fabric InfiniBand nhân lên trên các công việc huấn luyện phân tán. Lỗi liên kết đơn lẻ khiến các hoạt động MPI_Allreduce bị treo vô thời hạn. Lệnh ibdiagnet thực hiện xác nhận fabric toàn diện, kiểm tra tốc độ liên kết, bộ đếm lỗi và bảng định tuyến. Lỗi ký hiệu vượt quá 100 mỗi giờ cho thấy cáp bị xuống cấp cần thay thế. Hạ tầng của Meta tự động loại bỏ các node hiển thị lỗi InfiniBand quá mức khỏi nhóm huấn luyện.

Suy giảm hiệu năng RDMA (Truy cập bộ nhớ trực tiếp từ xa) xảy ra mà không có lỗi rõ ràng. PCIe Access Control Services (ACS) phải được tắt cho các chuyển giao peer-to-peer giữa các GPU. Lệnh setpci sửa đổi không gian cấu hình PCIe, nhưng các thay đổi không tồn tại qua khởi động lại mà không có sửa đổi BIOS. Đo lường độ trễ sử dụng ib_write_lat nên hiển thị 1,8 micro giây cho các kết nối cục bộ, với biến thiên 10% cho thấy tắc nghẽn hoặc cấu hình sai.

Cấu hình sai topology NVLink làm giảm băng thông giữa các cặp GPU. Lệnh nvidia-smi topo -m hiển thị topology kết nối, với NV12 cho thấy băng thông NVLink đầy đủ và PHB cho thấy kết nối chỉ PCIe. Cấu hình tối ưu tạo các lưới NVLink kết nối đầy đủ trong các node. Các instance p5.48xlarge của Amazon cung cấp băng thông NVLink hai chiều 900GB/s khi được cấu hình đúng, nhưng cấu hình sai làm giảm xuống tốc độ PCIe 64GB/s.

Tắc nghẽn mạng từ lưu lượng lưu trữ ảnh hưởng đến giao tiếp GPU. Các triển khai Ethernet/InfiniBand hỗn hợp yêu cầu cấu hình Chất lượng dịch vụ (QoS) cẩn thận. Lưu lượng lưu trữ tiêu thụ 40% băng thông khả dụng làm tăng thời gian hoạt động tập hợp MPI lên 3 lần. Mạng lưu trữ chuyên dụng hoặc định hình lưu lượng duy trì 60% băng thông dành riêng cho giao tiếp GPU ngăn chậm huấn luyện.

Lỗi đồng bộ hóa thời gian gây ra lỗi huấn luyện phân tán. Độ lệch đồng hồ vượt quá 1 mili giây giữa các node gây ra lỗi timeout NCCL. Giao thức thời gian chính xác (PTP) duy trì đồng bộ hóa dưới micro giây, nhưng yêu cầu hỗ trợ dấu thời gian phần cứng. Lệnh chrony sources hiển thị trạng thái đồng bộ hóa, với giá trị offset trên 100 micro giây yêu cầu sửa chữa ngay lập tức. Hạ tầng của Google duy trì đồng bộ hóa 100 nano giây trên các cụm GPU toàn cầu sử dụng tham chiếu đồng hồ nguyên tử.

Phát hiện và giải quyết lỗi bộ nhớ

Lỗi HBM (Bộ nhớ băng thông cao) tuân theo các mẫu có thể dự đoán cho phép can thiệp chủ động. Lỗi một bit được sửa bởi ECC cho thấy các ô nhớ đang xuống cấp. Lệnh nvidia-smi -q -d ECC báo cáo cả số lỗi tạm thời và tích lũy. Số đếm tạm thời đặt lại khi khởi động lại, trong khi số đếm tích lũy tồn tại. GPU hiển thị hơn 10 lỗi một bit mỗi giờ nên được lên lịch thay thế trong cửa sổ bảo trì tiếp theo.

Lỗi cấp phát bộ nhớ mặc dù còn VRAM khả dụng cho thấy phân mảnh. torch.cuda.memory_stats() của PyTorch tiết lộ bộ nhớ đã cấp phát so với bộ nhớ dự trữ. Bộ nhớ dự trữ có thể gấp 2 lần đã cấp phát do hành vi bộ cấp phát cache. Biến môi trường PYTORCH_CUDA_ALLOC_CONF cấu hình các chiến lược cấp phát, với max_split_size_mb=512 giảm phân mảnh cho các mô hình có kích thước tensor đa dạng.

Ngưỡng nghỉ hưu trang xác định tuổi thọ GPU. GPU NVIDIA nghỉ hưu các trang nhớ gặp lỗi không thể sửa, giảm bộ nhớ khả dụng. Lệnh nvidia-smi -q -d PAGE_RETIREMENT hiển thị số trang đã nghỉ hưu và khả dụng của các trang bổ sung. GPU H100 có thể nghỉ hưu tối đa 512 trang trước khi yêu cầu thay thế. Giám sát tự động nên kích hoạt thay thế khi 400 trang đã nghỉ hưu, ngăn lỗi hoàn toàn trong các lần huấn luyện quan trọng.

Suy giảm băng thông bộ nhớ cho thấy vấn đề nhiệt hoặc điện. Mẫu CUDA bandwidthTest nên đạt 3,35TB/s trên GPU H100. Hiệu năng dưới 3,0TB/s cho thấy giảm tốc. Lệnh nvidia-smi -q -d PERFORMANCE tiết lộ tốc độ xung nhịp bộ nhớ hiện tại. Tốc độ giảm thường tương quan với nhiệt độ vượt quá 75°C hoặc tiêu thụ điện năng tiếp cận giới hạn TDP.

Lỗi CUDA hết bộ nhớ (OOM) yêu cầu gỡ lỗi có hệ thống. Biến môi trường CUDA_LAUNCH_BLOCKING=1 buộc thực thi đồng bộ, cung cấp vị trí lỗi chính xác. Phân tích bộ nhớ sử dụng nsys profile tiết lộ các mẫu cấp phát và thời gian tồn tại

[Nội dung bị cắt ngắn để dịch]

Khắc phục sự cố cụm GPU: Các vấn đề thường gặp và cẩm nang xử lý

Các mẫu lỗi phần cứng và chẩn đoán

Vấn đề driver và firmware

Vấn đề quản lý nhiệt

Khắc phục sự cố mạng và kết nối

Phát hiện và giải quyết lỗi bộ nhớ

You Might Also Like

Malaysia và Thái Lan: Các Trung Tâm Dữ Liệu AI Mới Nổi tại Đ...

Bùng Nổ Hạ Tầng AI 27 Tỷ USD của Singapore: Cơ Hội cho Triển...

Sao lưu và Khôi phục cho AI: Bảo vệ Dữ liệu Huấn luyện Quy m...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_