xAI's Memphis Colossus: Giải phẫu một siêu máy tính 100.000 GPU

xAI xây dựng cụm Colossus 100.000 GPU trong 122 ngày, nhân đôi lên 200K trong 92 ngày tiếp theo. Công suất 250MW, Ethernet Spectrum-X. Bên trong siêu máy tính AI lớn nhất thế giới.

xAI's Memphis Colossus: Giải phẫu một siêu máy tính 100.000 GPU

xAI's Memphis Colossus: giải phẫu một cụm 100.000 GPU

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: Colossus hiện bao gồm 150.000 H100 + 50.000 H200 + 30.000 GB200 GPU—cụm huấn luyện AI đơn nhất lớn nhất thế giới. Xây dựng trong 122 ngày (100K ban đầu), nhân đôi trong 92 ngày tiếp theo. Kế hoạch mở rộng lên 1 triệu GPU. Tiêu thụ 250MW từ lưới điện Memphis. Ethernet Spectrum-X đạt 95% thông lượng so với 60% trên Ethernet truyền thống.

Được xây dựng trong 122 ngày, cụm Colossus của xAI đã triển khai 100.000 GPU NVIDIA H100 trong một nhà máy sản xuất thiết bị gia dụng cũ tại Memphis, Tennessee.¹ Sau đó, xAI nhân đôi hệ thống lên 200.000 GPU trong 92 ngày bổ sung.² Cụm hiện tại bao gồm 150.000 GPU H100, 50.000 GPU H200 và 30.000 GPU GB200, khiến nó trở thành cụm huấn luyện AI đơn nhất, hoạt động hoàn chỉnh lớn nhất thế giới.³ xAI có kế hoạch mở rộng lên 1 triệu GPU.⁴ Dự án này cho thấy việc triển khai hạ tầng quyết liệt trông như thế nào khi một tổ chức ưu tiên tốc độ hơn các mốc thời gian quy hoạch thông thường.

Dự án Colossus mang đến bài học cho bất kỳ tổ chức nào xây dựng hạ tầng AI quy mô lớn. Các quyết định về điện, làm mát, mạng và lựa chọn cơ sở cho thấy cách các ràng buộc có thể được vượt qua khi các phương pháp truyền thống chứng minh là quá chậm. Những đánh đổi cũng bộc lộ các rủi ro mà những triển khai có phương pháp hơn tránh được.

Tiến độ xây dựng và phương pháp tiếp cận

Musk nhận được báo giá ban đầu từ 18 đến 24 tháng cho việc xây dựng trung tâm dữ liệu.⁵ Từ chối tiến độ đó, xAI tìm thấy nhà máy Electrolux cũ ở Memphis, nơi nhà sản xuất thiết bị gia dụng đã mở vào năm 2012 và đóng cửa vào năm 2020.⁶ Cơ sở bỏ hoang này cung cấp không gian kho bãi đáng kể và 15 megawatt điện công nghiệp ban đầu.⁷

CEO Supermicro Charles Liang xác nhận công ty của ông đã hợp tác với xAI để xây dựng trung tâm dữ liệu Colossus khổng lồ trong 122 ngày.⁸ Cả Dell Technologies và Supermicro đều hợp tác với xAI trong việc xây dựng.⁹ Tiến độ rút ngắn đòi hỏi các luồng công việc song song về chuẩn bị cơ sở, hạ tầng điện, hệ thống làm mát và triển khai máy tính.

Cụm 100.000 GPU sử dụng các máy chủ HGX chứa tám GPU mỗi chiếc, được đặt trong các rack làm mát bằng chất lỏng của Supermicro với 64 GPU mỗi rack.¹⁰ Tổng cộng triển khai 1.500 rack GPU.¹¹ Mật độ rack đòi hỏi làm mát bằng chất lỏng ngay từ đầu, với các hệ thống làm mát bằng chất lỏng 4U của Supermicro cung cấp quản lý nhiệt.¹²

Ba tháng sau triển khai ban đầu, xAI công bố mở rộng lên 200.000 GPU với kế hoạch tiếp tục mở rộng lên 1 triệu.¹³ Việc mở rộng chứng minh rằng kiến trúc hạ tầng có thể đáp ứng tăng trưởng mà không cần thiết kế lại căn bản.

Hạ tầng điện ở quy mô chưa từng có

Cơ sở Colossus hiện tiêu thụ khoảng 250 megawatt, tăng từ cấu hình 150 megawatt ban đầu.¹⁴ xAI đã lắp đặt 35 tuabin khí có khả năng sản xuất 420 megawatt điện cùng với hệ thống pin Tesla Megapack.¹⁵ Phương pháp kết hợp cung cấp cả điện tải cơ sở và độc lập với lưới điện.

xAI đã thiết kế và xây dựng trạm biến áp MLGW đầu tiên trong 97 ngày, hoàn thành trạm biến áp 150 megawatt mà thông thường mất 2,5 năm.¹⁶ Việc đẩy nhanh tiến độ đòi hỏi làm việc với Memphis Light, Gas and Water đồng thời triển khai các giải pháp điện tạm thời.

Công ty đã triển khai 208 Tesla Megapack để cung cấp điện cho siêu máy tính, ban đầu cách ly nó khỏi lưới MLGW.¹⁷ Các Megapack lưu trữ lượng lớn điện năng, cung cấp dự phòng trong thời gian gián đoạn lưới điện và cho phép hoạt động trước khi các kết nối điện lưới vĩnh viễn hoàn thành.

Solaris Energy Infrastructure sở hữu đội tuabin khí 600 megawatt, với khoảng 400 megawatt hiện đang phục vụ xAI.¹⁸ xAI chiếm 67% sổ đặt hàng 1.700 megawatt của Solaris, tổng cộng 1.140 megawatt.¹⁹ Solaris dự kiến sẽ có hơn 1,1 gigawatt tuabin hoạt động đầy đủ cho xAI vào Q2 2027.²⁰

Việc mở rộng Colossus 2 tại địa điểm Tulane Road bao gồm ít nhất 110.000 GPU NVIDIA GB200 với tải điện khoảng 170 megawatt.²¹ Thêm Megapack và công suất tuabin hỗ trợ diện tích mở rộng.

xAI đã nhận được giấy phép cho các tuabin đốt khí để cung cấp điện cho siêu máy tính.²² Giấy phép hết hạn vào năm 2027, vào thời điểm đó xAI dự định dựa vào nhiều nguồn điện bao gồm hai trạm biến áp MLGW được tài trợ và xây dựng trong khuôn viên Colossus.²³ xAI có kế hoạch khởi công trang trại năng lượng mặt trời 500 mẫu Anh gần địa điểm.²⁴

Hệ thống làm mát và hạ tầng nước

Ngay từ đầu, xAI vận chuyển nước bằng xe tải và tái chế nó qua hệ thống vòng kín nội bộ để làm mát siêu máy tính.²⁵ Phương pháp phi truyền thống này cho phép hoạt động trước khi hạ tầng nước vĩnh viễn hoàn thành. xAI cam kết xây dựng cơ sở tái chế nước thải trị giá 80 triệu đô la để đáp ứng nhu cầu nước dài hạn.²⁶

Công ty có kế hoạch xây dựng nhà máy tái chế nước thải bằng lò phản ứng sinh học màng gốm lớn nhất thế giới.²⁷ Khi hoàn thành, cơ sở này sẽ bảo vệ ước tính 4,745 tỷ gallon nước ngầm.²⁸ Một tháp làm mát nước xám khổng lồ đang được xây dựng sẽ dẫn nước tái chế đã làm mát vào Colossus từ nhà máy nước xám gần đó.²⁹

Colossus 2 sử dụng phương pháp làm mát kết hợp. Khoảng một nửa lượng làm mát đến từ cơ sở nước xám của xAI trong khi nửa còn lại sử dụng làm mát bằng không khí.³⁰ Đến tháng 8 năm 2025, 119 máy làm lạnh bằng không khí cung cấp khoảng 200 megawatt công suất làm mát, đủ cho khoảng 110.000 GPU GB200 NVL72.³¹

Trong giai đoạn xây dựng ban đầu, xAI đã thuê máy phát điện và khoảng một phần tư công suất làm mát di động của Hoa Kỳ để khởi động hoạt động nhanh chóng.³² Việc mua sắm quyết liệt hạ tầng tạm thời đã cho phép tiến độ rút ngắn trong khi các hệ thống vĩnh viễn hoàn thành.

Mạng Ethernet Spectrum-X

Không giống như hầu hết các cụm huấn luyện AI sử dụng InfiniBand, Colossus của xAI sử dụng nền tảng Ethernet Spectrum-X của NVIDIA cho mạng RDMA của mình.³³ Lựa chọn này chứng minh rằng Ethernet có thể hỗ trợ các cụm huấn luyện AI lớn nhất khi được cấu hình đúng cách.

Colossus sử dụng Spectrum SN5600 51,2 terabit mỗi giây, cung cấp 64 cổng Ethernet 800 gigabit trong form factor 2U.³⁴ Các node riêng lẻ sử dụng SuperNIC BlueField-3 của NVIDIA với một kết nối 400 gigabit duy nhất đến mỗi GPU.³⁵

Mạng đạt được không có suy giảm độ trễ ứng dụng hoặc mất gói tin do va chạm luồng trên cả ba tầng của fabric.³⁶ Hệ thống duy trì 95% thông lượng dữ liệu nhờ điều khiển tắc nghẽn Spectrum-X.³⁷ Ethernet tiêu chuẩn thường chỉ đạt 60% thông lượng ở quy mô này do hàng nghìn va chạm luồng.³⁸

Các mạng Ethernet truyền thống gặp khó khăn với vấn đề incast khi hàng nghìn GPU giao tiếp đồng thời.³⁹ InfiniBand truyền thống giải quyết vấn đề này với Priority Flow Control tích hợp và quản lý tắc nghẽn cấp phần cứng.⁴⁰ Spectrum-X đạt được kết quả tương tự bằng cách sử dụng RoCE v2 với các cơ chế điều khiển tắc nghẽn nâng cao.⁴¹

Phương pháp Ethernet mang lại lợi ích về chi phí và tính linh hoạt so với InfiniBand trong khi vẫn duy trì hiệu suất. Các tính năng Spectrum-X bao gồm định tuyến thích ứng với công nghệ Direct Data Placement, điều khiển tắc nghẽn và khả năng quan sát fabric AI nâng cao cho phép hiệu suất như InfiniBand trên hạ tầng Ethernet.⁴²

So sánh quy mô

Colossus với 200.000 GPU vượt qua các siêu máy tính lớn khác với biên độ đáng kể.⁴³ Siêu máy tính AI quy mô zettascale của Oracle chứa 131.072 GPU NVIDIA.⁴⁴ El Capitan của Lawrence Livermore National Laboratory có 44.544 GPU.⁴⁵ Frontier của Oak Ridge National Laboratory có 37.632 GPU.⁴⁶

Theo thông số kỹ thuật của xAI, Colossus đạt tổng băng thông bộ nhớ 194 petabyte mỗi giây với dung lượng lưu trữ vượt quá một exabyte.⁴⁷ Băng thông bộ nhớ cho phép các hoạt động tập thể mà huấn luyện AI yêu cầu trên hàng trăm nghìn GPU.

Cụm này huấn luyện chatbot Grok của xAI và cung cấp hỗ trợ tính toán cho X và các dự án khác của Musk bao gồm SpaceX.⁴⁸ Việc sử dụng đa mục đích biện minh cho khoản đầu tư hạ tầng trên nhiều dòng kinh doanh.

Mở rộng Colossus 2

xAI khởi động dự án Colossus 2 vào ngày 7 tháng 3 năm 2025, mua lại một kho hàng 1 triệu foot vuông ở Memphis cộng với hai địa điểm liền kề tổng cộng 100 mẫu Anh.⁴⁹ Địa điểm Tulane Road sẽ lưu trữ đội GPU mở rộng.

Việc mở rộng nhắm mục tiêu 350.000 GPU với việc triển khai pin Tesla Megapack lớn nhất thế giới để cung cấp điện dự phòng trong thời gian tải lưới cao.⁵⁰ Địa điểm sẽ có 60 đến 70 Megapack cùng với hạ tầng GPU.⁵¹

Phòng Thương mại Memphis tuyên bố xAI dự định mở rộng lên tổng cộng 1 triệu GPU.⁵² Đạt được quy mô đó đòi hỏi phát triển hạ tầng điện liên tục vượt quá công suất hiện tại. 1,1 gigawatt mà Solaris dự kiến cho năm 2027 sẽ hỗ trợ khoảng nửa triệu GPU công suất cao ở mức mật độ hiện tại.

Bài học về hạ tầng

Dự án Colossus chứng minh một số phương pháp đẩy nhanh triển khai hạ tầng AI.

Tái sử dụng cơ sở có thể rút ngắn đáng kể tiến độ. Tìm một cơ sở công nghiệp hiện có với hạ tầng điện sẵn có đã loại bỏ thời gian xây dựng mà các công trình mới đòi hỏi. Các tổ chức có quyền tiếp cận các cơ sở công nghiệp đã ngừng hoạt động có thể tìm thấy cơ hội triển khai hạ tầng AI nhanh chóng.

Hạ tầng tạm thời cho phép các đường song song. Thuê máy phát điện, làm mát di động và vận chuyển nước bằng xe tải cho phép hoạt động bắt đầu trong khi hạ tầng vĩnh viễn hoàn thành. Chi phí cao hơn cho các giải pháp tạm thời có thể xứng đáng khi thời gian đưa vào hoạt động quyết định vị thế cạnh tranh.

Ethernet có thể hỗ trợ các cụm lớn nhất. Việc triển khai Spectrum-X chứng minh rằng InfiniBand không bắt buộc cho huấn luyện AI quy mô lớn. Các tổ chức có chuyên môn và hạ tầng Ethernet có thể không cần áp dụng InfiniBand cho cả những triển khai lớn nhất.

Điện vẫn là ràng buộc chính. Bất chấp các giải pháp sáng tạo bao gồm lưu trữ pin, tuabin khí và xây dựng trạm biến áp nhanh, khả năng cung cấp điện đã hạn chế tốc độ và quy mô triển khai. Các tổ chức lên kế hoạch cho các cụm AI lớn nên đảm bảo công suất điện trước tiên.

Những đánh đổi bao gồm thách thức về quy định, vấn đề quan hệ cộng đồng và rủi ro kỹ thuật từ tiến độ rút ngắn. Giấy phép của xAI cho tuabin khí hết hạn vào năm 2027, tạo ra yêu cầu chuyển đổi.⁵³ Các quan chức địa phương bày tỏ lo ngại về khả năng quan sát hạn chế hoạt động của xAI.⁵⁴ Tốc độ cho phép lợi thế cạnh tranh có thể tạo ra nợ kỹ thuật mà các triển khai chậm hơn tránh được.

Tham khảo nhanh: Thông số kỹ thuật Colossus

Thông số Giá trị
Tổng GPU 200.000+ (150K H100, 50K H200, 30K GB200)
Thời gian xây dựng 122 ngày (Giai đoạn 1), 92 ngày (Giai đoạn 2)
Tiêu thụ điện 250 MW hiện tại
Hạ tầng điện 35 tuabin khí (420 MW), 208 Tesla Megapack
Mạng NVIDIA Spectrum-X 800G Ethernet
Lưu trữ >1 exabyte
Băng thông bộ nhớ 194 PB/s
Cấu hình rack 64 GPU mỗi rack, 1.500 rack
Làm mát Làm mát bằng chất lỏng + tái chế nước xám
Mục tiêu mở rộng 1 triệu GPU

Những điểm chính

Cho các nhà lãnh đạo hạ tầng: - Báo giá DC truyền thống: 18-24 tháng; xAI đã giao trong 122 ngày bằng cách tái sử dụng cơ sở - Hạ tầng tạm thời (máy phát điện thuê, làm mát di động, nước vận chuyển bằng xe tải) cho phép các đường song song - Điện vẫn là ràng buộc chính—đảm bảo công suất trước khi mua GPU - Ethernet Spectrum-X đã chứng minh khả thi ở quy mô 200K GPU, thách thức sự cần thiết của InfiniBand

Cho các đội cơ sở: - Các cơ sở công nghiệp đã ngừng hoạt động mang lại cơ hội triển khai nhanh - 250 MW đòi hỏi nhiều nguồn điện—tuabin khí, pin, trạm biến áp tiện ích - Tái chế nước xám giải quyết lo ngại về nước ở quy mô lớn—cơ sở 80 triệu đô la bảo vệ 4,7 tỷ gallon nước ngầm - 119 máy làm lạnh bằng không khí cung cấp công suất làm mát ~200 MW

Cho hoạch định chiến lược: - Đánh đổi tốc độ vs. bền vững: giấy phép tuabin khí hết hạn 2027 - Tiến độ rút ngắn tạo ra nợ kỹ thuật mà các triển khai có phương pháp tránh được - Sử dụng đa mục đích (Grok, X, SpaceX) biện minh cho đầu tư hạ tầng - Mục tiêu 1 triệu GPU đòi hỏi

[Nội dung bị cắt ngắn cho bản dịch]

Yêu cầu báo giá_

Hãy cho chúng tôi biết về dự án của bạn và chúng tôi sẽ phản hồi trong vòng 72 giờ.

> TRUYỀN_TẢI_HOÀN_TẤT

Đã Nhận Yêu cầu_

Cảm ơn bạn đã gửi yêu cầu. Đội ngũ của chúng tôi sẽ xem xét và phản hồi trong vòng 72 giờ.

ĐANG XẾP HÀNG XỬ LÝ