Ứng Phó Sự Cố Cho Cụm GPU: Playbook Cho Các Tình Huống Lỗi Thường Gặp
Cập nhật ngày 8 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Sự cố làm mát bằng chất lỏng hiện đứng đầu danh mục sự cố cho các cụm GPU hiện đại—lỗi CDU, phát hiện rò rỉ, vấn đề chất lượng chất làm mát. Chi phí downtime H100/H200 từ $25-40K mỗi GPU-ngày khiến phản ứng nhanh trở nên quan trọng. Các nền tảng AIOps (PagerDuty, Datadog) đang tích hợp runbook chuyên dụng cho GPU. Các framework huấn luyện đàn hồi giảm phạm vi ảnh hưởng của lỗi GPU. Tối ưu hóa tần suất checkpoint (10-15 phút) giảm thiểu mất mát huấn luyện từ sự cố.
Khi 500 GPU H100 đột ngột ngừng hoạt động trong một phiên huấn luyện quan trọng, mỗi giây tốn $1,200 chi phí tính toán bị mất. Khi hệ thống làm mát bằng chất lỏng hỏng trong cụm GPU 2MW, nhiệt độ tăng 1°C mỗi 30 giây hướng tới ngưỡng tắt nhiệt. Khi fabric InfiniBand bị phân vùng trong quá trình huấn luyện phân tán, 10,000 GPU-giờ tính toán trở nên vô giá trị. Những tình huống này đòi hỏi các phản ứng chính xác, đã được diễn tập để giảm thiểu thiệt hại và khôi phục dịch vụ nhanh chóng. Hướng dẫn này cung cấp các playbook đã được kiểm chứng thực tế cho sự cố hạ tầng GPU.
Phân Loại Sự Cố và Mức Độ Nghiêm Trọng
Sự cố hạ tầng GPU đòi hỏi phân loại mức độ nghiêm trọng chuyên biệt vượt ra ngoài các framework IT truyền thống. Sự cố Mức độ 1 (Nghiêm trọng) liên quan đến lỗi toàn bộ cụm, rủi ro mất dữ liệu, hoặc nguy hiểm an toàn ảnh hưởng hơn 100 GPU hoặc tác động $50,000 mỗi giờ. Những sự cố này kích hoạt leo thang đến lãnh đạo ngay lập tức, liên hệ nhà cung cấp, và kích hoạt phòng chiến 24/7. Quá trình huấn luyện GPT-4 của OpenAI đã trải qua ba sự cố Mức độ 1 trong sáu tháng, mỗi sự cố đều cần sự tham gia của CEO do chi phí huấn luyện $2 triệu mỗi ngày.
Sự cố Mức độ 2 (Cao) ảnh hưởng 20-100 GPU hoặc gây suy giảm hiệu suất 50% trên các cụm lớn hơn. Mục tiêu thời gian phản hồi là 15 phút với mục tiêu giải quyết trong 2 giờ. Những sự cố này thường liên quan đến lỗi làm mát một phần, vấn đề phân phối điện, hoặc sự kiện phân vùng mạng. Hạ tầng của Meta tự động gọi kỹ sư trực cho các sự kiện Mức độ 2, với leo thang đến kiến trúc sư cấp cao sau 30 phút không có tiến triển.
Sự cố Mức độ 3 (Trung bình) ảnh hưởng ít hơn 20 GPU hoặc gây suy giảm hiệu suất 25%. Bao gồm lỗi node đơn lẻ, vấn đề driver, hoặc sự cố mạng cục bộ. Mục tiêu giải quyết kéo dài đến 4 giờ với theo dõi vào ngày làm việc tiếp theo có thể chấp nhận được. Các hệ thống tự động xử lý 70% sự cố Mức độ 3 mà không cần can thiệp của con người thông qua cơ chế tự phục hồi.
Sự cố Mức độ 4 (Thấp) liên quan đến lỗi GPU đơn lẻ hoặc biến động hiệu suất nhỏ dưới 10%. Những sự cố này đi vào quy trình ticket tiêu chuẩn với mục tiêu giải quyết trong 24 giờ. Hạ tầng của Anthropic tự động cách ly các tài nguyên bị ảnh hưởng, cho phép các workload production tiếp tục trong khi việc sửa chữa tiến hành trong các cửa sổ bảo trì.
Tính toán tác động tài chính quyết định việc phân loại mức độ nghiêm trọng. Mỗi GPU H100 đại diện cho khoản đầu tư vốn $30,000 với chi phí vận hành $50 mỗi giờ. Gián đoạn huấn luyện có thể làm mất hiệu lực nhiều ngày tính toán trị giá hàng triệu đô la. Lambda Labs tính toán chi phí sự cố như sau: (GPU bị ảnh hưởng × tỷ lệ theo giờ × thời gian dự kiến) + (thời gian khôi phục checkpoint × chi phí cụm) + (hình phạt SLA). Công thức này đã kích hoạt phân loại Mức độ 1 cho một sự cố 50-GPU do chi phí khôi phục checkpoint $500,000.
Quy Trình Ứng Phó Mất Điện
Các tình huống mất điện hoàn toàn đòi hỏi giảm tải ngay lập tức để ngăn lỗi dây chuyền trong quá trình khôi phục. Các hệ thống UPS hỗ trợ cụm GPU thường cung cấp 5-7 phút hoạt động ở tải đầy. 30 giây đầu tiên quyết định quỹ đạo sự cố: bộ chuyển đổi tự động phải kích hoạt, máy phát phải khởi động, và hệ thống làm mát phải duy trì hoạt động. Playbook của Microsoft khởi tạo tạm dừng workload tự động trong vòng 10 giây sau khi phát hiện sự kiện điện.
Giai đoạn 1 (0-30 giây) tập trung vào bảo toàn trạng thái. Các job huấn luyện phân tán phải checkpoint ngay lập tức, yêu cầu các vị trí checkpoint được cấu hình trước với băng thông đủ. Lệnh kubectl exec kích hoạt checkpoint khẩn cấp trên các pod Kubernetes. Hệ thống lưu trữ chuyển sang chế độ write-through, đảm bảo bền vững dữ liệu. Thiết bị mạng trên hệ thống UPS riêng duy trì kết nối để quản lý từ xa.
Giai đoạn 2 (30 giây - 2 phút) liên quan đến ưu tiên tải. Các workload không quan trọng tự động kết thúc dựa trên các lớp ưu tiên pod. Các workload inference tiếp tục phục vụ với công suất suy giảm. Các job huấn luyện lưu trạng thái và tắt một cách duyên dáng. Hệ thống làm mát giảm xuống hoạt động tối thiểu khả thi, duy trì nhiệt độ dưới giới hạn nhiệt. Hệ thống quản lý điện giảm 40% tải, kéo dài thời gian UPS lên 15 phút.
Giai đoạn 3 (2-5 phút) yêu cầu đồng bộ hóa máy phát. Bộ chuyển đổi tự động đồng bộ đầu ra máy phát với hệ thống UPS trước khi chuyển tải. Khởi động máy phát thất bại kích hoạt leo thang ngay lập tức với quy trình khởi động thủ công. Xác minh trạng thái hệ thống nhiên liệu đảm bảo khả năng hoạt động 24 giờ. Các trung tâm dữ liệu của Google duy trì nguồn cung nhiên liệu 48 giờ với các hợp đồng tiếp nhiên liệu tự động được kích hoạt trong các sự cố kéo dài.
Quy trình khôi phục bắt đầu khi nguồn điện ổn định trở lại. Khôi phục theo giai đoạn ngăn dòng điện khởi động đồng thời làm quá tải hệ thống điện. Hệ thống lưu trữ khởi tạo trước, tiếp theo là hạ tầng mạng, sau đó là các node tính toán theo từng phần 10%. Giới hạn công suất GPU tạm thời giảm xuống 80% trong quá trình ổn định. Công suất đầy đủ trở lại sau 30 phút hoạt động ổn định. Tự động hóa khôi phục của CoreWeave đưa 1,000 GPU trở lại production trong 45 phút sau khi phục hồi điện.
Ứng Phó Lỗi Hệ Thống Làm Mát
Lỗi làm mát bằng chất lỏng leo thang nhanh chóng với nhiệt độ GPU tăng 20°C mỗi phút khi không có làm mát chủ động. Phản ứng ngay lập tức kích hoạt giảm tần số tự động, giảm 40% sinh nhiệt. Lệnh nvidia-smi -pl 400 cắt công suất H100 từ 700W xuống 400W, mua thời gian phản ứng quan trọng. Di chuyển workload đến các zone không bị ảnh hưởng bắt đầu tự động trong khi đội sửa chữa được huy động.
Lỗi vòng chính yêu cầu cô lập các phần bị ảnh hưởng trong khi duy trì dòng chảy đến các khu vực hoạt động. Van bypass chuyển hướng dòng chảy xung quanh các thành phần hỏng. Các bơm dự phòng kích hoạt, duy trì 60% công suất dòng chảy. Lỗi CDU (Coolant Distribution Unit) kích hoạt chuyển đổi tự động sang các unit dự phòng trong vòng 30 giây. Các hệ thống RSD (Rack Scale Design) của Supermicro bao gồm điều khiển van tự động cô lập lỗi đến từng rack riêng lẻ.
Lỗi vòng phụ giữa CDU và tháp làm mát ảnh hưởng toàn bộ cơ sở. Máy làm lạnh khẩn cấp kích hoạt trong vòng 2 phút, cung cấp khả năng thải nhiệt tạm thời. Nhân viên trung tâm dữ liệu mở thông gió khẩn cấp thủ công, xả không khí nóng trực tiếp ra ngoài bất chấp tổn thất hiệu suất. Các unit làm mát di động triển khai đến các khu vực quan trọng trong vòng 30 phút. Cơ sở Prineville của Facebook duy trì 2MW công suất làm mát di động cho ứng phó khẩn cấp.
Phát hiện rò rỉ kích hoạt các giao thức cô lập ngay lập tức. Các cảm biến nước bên dưới rack GPU kích hoạt van solenoid, dừng dòng chảy trong vòng 500 mili giây. Các rack bị ảnh hưởng tắt nguồn tự động trong khi duy trì kết nối mạng cho chẩn đoán từ xa. Đội khôi phục triển khai vật liệu hút ẩm và máy hút ẩm di động ngăn ăn mòn. Các trung tâm dữ liệu dưới nước của Microsoft sử dụng chất lỏng làm mát điện môi, loại bỏ hoàn toàn rủi ro hư hại do nước.
Tăng cường làm mát bằng không khí hỗ trợ các hệ thống làm mát bằng chất lỏng trong các lỗi một phần. Các unit CRAC (Computer Room Air Conditioning) tăng công suất 50% bù đắp cho công suất làm mát bằng chất lỏng giảm. Các hệ thống ngăn hành lang nóng kích hoạt, cải thiện hiệu suất làm mát 20%. Quạt tạm thời triển khai ở các khu vực quan trọng, cung cấp làm mát điểm cho các rack quá nhiệt. Những biện pháp này duy trì hoạt động trong 4-6 giờ cần thiết cho sửa chữa làm mát bằng chất lỏng.
Phân Vùng Mạng và Mất Kết Nối
Phân vùng fabric InfiniBand phá hủy hiệu suất huấn luyện phân tán ngay lập tức. Phát hiện tự động kích hoạt trong vòng 100 mili giây sử dụng heartbeat của subnet manager. Các node bị ảnh hưởng cách ly tự động, ngăn cập nhật một phần làm hỏng trạng thái model. Các job scheduler nhận cập nhật topology, lên lịch lại công việc cho các phân vùng khỏe mạnh. Xử lý lỗi NCCL kết thúc các hoạt động collective bị ảnh hưởng một cách sạch sẽ.
Khôi phục yêu cầu tái xây dựng fabric có hệ thống. Subnet manager opensm xây dựng lại bảng định tuyến, khám phá các đường còn sống. Hoạt động fabric một phần tiếp tục với băng thông giảm trong khi sửa chữa tiến hành. Suy giảm độ rộng liên kết từ 4x xuống 2x duy trì kết nối với giảm 50% băng thông. Hạ tầng EFA (Elastic Fabric Adapter) của Amazon tự động định tuyến xung quanh các lỗi, duy trì 85% băng thông tổng hợp trong các lỗi switch đơn lẻ.
Lỗi mạng Ethernet ảnh hưởng đến cả workload huấn luyện và inference theo cách khác nhau. Hội tụ BGP (Border Gateway Protocol) hoàn thành trong vòng 30 giây cho các đường dự phòng. Định tuyến ECMP (Equal-Cost Multi-Path) phân phối lưu lượng qua các liên kết còn sống. Ưu tiên lưu lượng lưu trữ đảm bảo các hoạt động checkpoint hoàn thành bất chấp băng thông giảm. Các chính sách Quality of Service đảm bảo 40% băng thông cho các hoạt động quan trọng.
Cô lập mạng hoàn toàn kích hoạt chế độ hoạt động tự trị. Các node tiếp tục tính toán cục bộ trong khi đệm kết quả. Các job huấn luyện phân tán tạm dừng tại các rào cản đồng bộ hóa, bảo toàn trạng thái. Lưu trữ NVMe cục bộ đệm đến 1TB dữ liệu checkpoint chờ khôi phục kết nối. Khi mạng khôi phục, dữ liệu đệm đồng bộ hóa tự động, tiếp tục hoạt động trong vòng vài phút thay vì hàng giờ khởi động lại.
Lỗi DNS và service discovery ngăn lập lịch workload bất chấp hạ tầng hoạt động. Các máy chủ DNS dự phòng kích hoạt tự động với giá trị TTL (Time To Live) 15 giây cho phép cập nhật nhanh chóng. Các pod CoreDNS của Kubernetes khởi động lại trên các node không bị ảnh hưởng trong vòng 30 giây. Cấu hình IP tĩnh trong các runbook khẩn cấp bỏ qua DNS cho truy cập quản lý quan trọng. HashiCorp Consul cung cấp khả năng phục hồi service mesh với failover tự động cho service discovery.
Ngăn Chặn Lỗi Dây Chuyền Phần Cứng
Lỗi GPU đơn lẻ có thể lan rộng qua các job huấn luyện phân tán ảnh hưởng hàng trăm thiết bị. Cô lập ngay lập tức ngăn lan truyền lỗi. Lệnh nvidia-smi drain loại bỏ GPU một cách duyên dáng khỏi các pool tài nguyên. Các device plugin của Kubernetes đánh dấu GPU hỏng là không khỏe mạnh, ngăn lập lịch pod mới. Các workload đang chạy di chuyển đến các tài nguyên khỏe mạnh trong vòng 2 phút.
Lỗi bộ nhớ kích hoạt các phản ứng lũy tiến dựa trên mức độ nghiêm trọng. Lỗi single-bit được sửa bởi ECC tiếp tục hoạt động với tần suất giám sát tăng lên. Lỗi double-bit gây ra di chuyển workload ngay lập tức và cách ly GPU. Hết page retirement kích hoạt lập lịch thay thế phần cứng. Hệ thống đặt hàng tự động duy trì 2% kho dự phòng cho thay thế nhanh chóng.
Lỗi bộ nguồn trong các cấu hình dự phòng tiếp tục hoạt động với công suất giảm. Cấu hình N+1 mất dự phòng nhưng duy trì hoạt động đầy đủ. Cân bằng tải phân phối lại mức tiêu thụ điện qua các bộ nguồn còn sống. Hiệu suất giảm 5-10% tăng sinh nhiệt. Lập lịch thay thế nhắm mục tiêu phản hồi 4 giờ cho khôi phục dự phòng. Các cụm Dojo của Tesla duy trì các bộ nguồn dự phòng nóng cho phép thay thế trong 5 phút.
Lỗi thành phần bo mạch chủ yêu cầu chẩn đoán cẩn thận phân biệt lỗi có thể sửa chữa và lỗi cuối cùng. Các retimer PCIe đôi khi cần gắn lại, khôi phục hoạt động mà không cần thay thế. Lỗi VRM (Voltage Regulator Module) có thể ảnh hưởng GPU đơn lẻ trong khi các GPU khác tiếp tục hoạt động. Các quy trình khôi phục BIOS khôi phục firmware bị hỏng mà không cần thay thế phần cứng. Chẩn đoán tích hợp của Dell EMC xác định lỗi cấp thành phần cho phép sửa chữa có mục tiêu.
Ngăn chặn lan rộng nhiệt yêu cầu can thiệp tích cực. Nhiệt độ GPU lân cận tăng 5-10°C khi các GPU bên cạnh hỏng. Phân phối lại workload ngăn hình thành điểm nóng. Các unit rack trống giữa phần cứng hỏng cải thiện luồng không khí. Máy làm mát điểm di động triển khai trong vòng 15 phút cho các khu vực quan trọng. Những biện pháp này duy trì hoạt động trong khi chờ thay thế phần cứng.
[Nội dung bị cắt ngắn để dịch]