Điện toán phân tách cho AI: Kiến trúc hạ tầng có thể kết hợp

Blake Crosley

Jan 06, 2026 13 min read Disclaimer

Điện toán phân tách cho AI: Kiến trúc hạ tầng có thể kết hợp

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: CXL memory pooling đạt tốc độ nhanh hơn 3,8 lần so với 200G RDMA, nhanh hơn 6,5 lần so với 100G RDMA cho suy luận LLM. Jensen Huang: "Khi bạn có thể đặt accelerator ở bất kỳ đâu trong trung tâm dữ liệu và kết hợp, tái cấu hình cho các khối lượng công việc cụ thể—đó là một cuộc cách mạng." Hạ tầng có thể kết hợp đang phá vỡ tỷ lệ máy chủ cố định để phù hợp động với các yêu cầu khối lượng công việc AI chính xác.

CXL memory pooling đạt tốc độ nhanh hơn 3,8 lần so với 200G RDMA và nhanh hơn 6,5 lần so với 100G RDMA khi chia sẻ bộ nhớ giữa các máy chủ GPU chạy suy luận mô hình ngôn ngữ lớn.[^1] Bản demo sử dụng hai máy chủ với GPU NVIDIA H100 chạy mô hình OPT-6.7B, cho thấy cách bộ nhớ CXL được chia sẻ tăng tốc khối lượng công việc AI vượt xa những gì mạng truyền thống cho phép. Như Jensen Huang của NVIDIA đã nhận xét: "Khi bạn có thể phân tách máy chủ hội tụ, khi bạn có thể đặt accelerator ở bất kỳ đâu trong trung tâm dữ liệu và sau đó có thể kết hợp và tái cấu hình trung tâm dữ liệu đó cho khối lượng công việc cụ thể này—đó là một cuộc cách mạng."[^2]

Hạ tầng có thể kết hợp đại diện cho một phương pháp kiến trúc trong đó tài nguyên điện toán, lưu trữ và mạng tồn tại dưới dạng các nhóm trừu tượng được quản lý độc lập thông qua các mặt phẳng điều khiển được định nghĩa bằng phần mềm.[^3] Không giống như các kiến trúc truyền thống kết hợp CPU, bộ nhớ, lưu trữ và mạng với các máy chủ cụ thể, hạ tầng có thể kết hợp coi tài nguyên phần cứng như các nhóm linh hoạt được phân bổ động qua các khối lượng công việc. Phương pháp này hứa hẹn cải thiện đáng kể việc sử dụng tài nguyên và tính linh hoạt triển khai cho hạ tầng AI.

Phá vỡ ranh giới máy chủ

Các máy chủ truyền thống đóng gói tỷ lệ cố định của CPU, bộ nhớ, GPU và lưu trữ. Khối lượng công việc AI hiếm khi phù hợp với các tỷ lệ cố định này. Các công việc huấn luyện đòi hỏi mật độ GPU tối đa với yêu cầu CPU tương đối khiêm tốn. Khối lượng công việc suy luận có thể cần nhiều bộ nhớ trên mỗi GPU hơn so với cấu hình tiêu chuẩn cung cấp. Các pipeline tiền xử lý yêu cầu dung lượng CPU và lưu trữ mà không cần GPU.

Hạ tầng có thể kết hợp phá vỡ ranh giới máy chủ, cho phép các tổ chức lắp ráp các hệ thống ảo phù hợp với yêu cầu khối lượng công việc chính xác.[^4] Một khối lượng công việc huấn luyện nhận được tổ hợp 8 GPU, CPU tối thiểu và lưu trữ băng thông cao. Một khối lượng công việc suy luận nhận được 2 GPU với bộ nhớ mở rộng. Cùng một tài nguyên vật lý phục vụ cả hai khối lượng công việc vào các thời điểm khác nhau mà không cần tái cấu hình phần cứng.

Mô hình phân tách

Các kiến trúc phân tách tách các node vật lý thành các loại tài nguyên chuyên dụng: node điện toán, node bộ nhớ, node GPU và node lưu trữ.[^5] Các fabric tốc độ cao kết nối các node, cho phép phần mềm kết hợp các hệ thống logic từ tài nguyên vật lý phân tán. Việc kết hợp xảy ra trong phần mềm mà không cần đi cáp lại vật lý.

Tài nguyên không còn ngồi không chờ đợi các khối lượng công việc cụ thể. Một node GPU phục vụ các công việc huấn luyện trong giờ cao điểm và các công việc suy luận vào ban đêm. Các node bộ nhớ mở rộng dung lượng cho các khối lượng công việc sử dụng nhiều bộ nhớ mà không cần cung cấp quá mức cho mọi máy chủ. Sự linh hoạt cải thiện việc sử dụng trong khi giảm tổng yêu cầu phần cứng.

CXL cho phép memory pooling

Compute Express Link (CXL) cung cấp kết nối nhất quán cache cho phép phân tách bộ nhớ thực tế.[^6] CXL cung cấp truy cập ngữ nghĩa bộ nhớ với độ trễ trong khoảng 200-500 nano giây, so với khoảng 100 micro giây cho NVMe và hơn 10 mili giây cho chia sẻ bộ nhớ dựa trên lưu trữ.[^7] Cải thiện độ trễ cho phép chia sẻ bộ nhớ động, chi tiết thực sự qua các node điện toán.

CXL memory pooling hoạt động như thế nào

CXL memory pool tạo ra một tầng bộ nhớ phân tách tốc độ cao mới, định hình lại cách các tổ chức xây dựng hạ tầng AI.[^8] Các node CPU truy cập bộ nhớ được gộp như thể được gắn cục bộ, với CXL fabric xử lý tính nhất quán và di chuyển dữ liệu một cách trong suốt. Ứng dụng thấy dung lượng bộ nhớ mở rộng mà không cần sửa đổi.

CXL Memory Box cho phép memory pooling qua nhiều máy chủ GPU, cho phép truy cập các nhóm bộ nhớ lớn hơn so với các máy chủ riêng lẻ cung cấp.[^9] Khối lượng công việc AI xử lý các bộ dữ liệu vượt quá dung lượng bộ nhớ cục bộ được hưởng lợi từ bộ nhớ được gộp mà không có hình phạt hiệu suất của truy cập bộ nhớ từ xa truyền thống. Phương pháp này cho phép kích thước batch lớn hơn và cửa sổ ngữ cảnh dài hơn mà không cần nâng cấp các máy chủ riêng lẻ.

Vượt ra ngoài bộ nhớ: gộp tài nguyên đầy đủ

CXL cho phép nhiều hơn là memory pooling. Tiêu chuẩn hỗ trợ các kết nối có thể kết hợp giữa CPU, bộ đệm bộ nhớ và accelerator.[^10] GPU, FPGA, DPU và các accelerator khác kết nối qua CXL fabric để phân bổ động qua các khối lượng công việc.

Tầm nhìn mở rộng đến phân tách tài nguyên hoàn toàn, nơi không có tài nguyên nào liên kết vĩnh viễn với bất kỳ tài nguyên nào khác. Các tổ chức xây dựng các nhóm tài nguyên có kích thước cho nhu cầu tổng hợp thay vì nhu cầu cao điểm cho mỗi khối lượng công việc. Điều phối phần mềm kết hợp các tài nguyên phù hợp cho mỗi khối lượng công việc theo thời gian thực.

Các giải pháp trong ngành

Nhiều nhà cung cấp cung cấp các giải pháp hạ tầng có thể kết hợp giải quyết các yêu cầu khối lượng công việc AI.

Nền tảng có thể kết hợp của Liqid

Liqid phát hành các máy chủ GPU có thể kết hợp với CXL 2.0 memory pooling hỗ trợ lên đến 100 TB bộ nhớ có thể kết hợp phân tách.[^11] Nền tảng bao gồm EX-5410P hộp GPU 10 slot hỗ trợ GPU 600W bao gồm NVIDIA H200, RTX Pro 6000 và accelerator Intel Gaudi 3. Phần mềm Matrix điều phối việc kết hợp tài nguyên trên nền tảng phần cứng.

Phương pháp của Liqid đóng gói khả năng kết hợp thành các giải pháp tích hợp thay vì yêu cầu khách hàng thiết kế các hệ thống phân tách từ các thành phần. Các tổ chức đạt được lợi ích khả năng kết hợp mà không cần xây dựng chuyên môn về thiết kế fabric và phát triển phần mềm điều phối.

Hệ thống có thể kết hợp của IBM Research

IBM Research khám phá các tiêu chuẩn CXL để xây dựng các hệ thống có thể kết hợp hoàn toàn qua fabric tốc độ cao, độ trễ thấp.[^12] Trong kiến trúc của họ, tài nguyên tồn tại như một phần của các nhóm lớn được kết nối qua network fabric thay vì được nhóm tĩnh trong các máy chủ. Tài nguyên có thể kết hợp nhóm lại với nhau để tái tạo các trừu tượng máy chủ phù hợp với yêu cầu khối lượng công việc cụ thể.

Chương trình nghiên cứu giải quyết các thách thức bao gồm thiết kế topology fabric, tối ưu hóa độ trễ và điều phối phần mềm cho hạ tầng AI có thể kết hợp. Công việc này thúc đẩy sự hiểu biết về cách các hệ thống có thể kết hợp quy mô sản xuất nên hoạt động.

Hợp tác GigaIO và Microchip

GigaIO và Microchip phát triển hạ tầng phân tách có thể kết hợp cấp đám mây kết hợp các công nghệ PCIe và CXL.[^13] Phương pháp này nhắm mục tiêu các trung tâm dữ liệu yêu cầu tính linh hoạt của tài nguyên có thể kết hợp với các đặc tính hiệu suất của phần cứng kết nối trực tiếp.

Các cân nhắc về kiến trúc

Triển khai hạ tầng có thể kết hợp đòi hỏi các quyết định kiến trúc bao gồm thiết kế fabric, phần mềm điều phối và quản lý khối lượng công việc.

Topology fabric

Interconnect fabric xác định độ trễ và băng thông có thể đạt được giữa các tài nguyên phân tách. CXL fabric phải cung cấp đủ băng thông cho các mẫu truy cập tốc độ bộ nhớ trong khi duy trì độ trễ trong giới hạn chấp nhận được. Topology fabric ảnh hưởng đến cả hiệu suất và chi phí.

Các topology dựa trên switch cung cấp tính linh hoạt nhưng thêm độ trễ so với kết nối trực tiếp. Sự đánh đổi giữa độ phức tạp topology và ngân sách độ trễ phụ thuộc vào yêu cầu khối lượng công việc cụ thể. Khối lượng công việc sử dụng nhiều bộ nhớ đòi hỏi độ trễ thấp hơn so với khối lượng công việc sử dụng nhiều lưu trữ.

Yêu cầu điều phối

Điều phối phần mềm quản lý việc kết hợp tài nguyên, xử lý các yêu cầu phân bổ, theo dõi trạng thái tài nguyên và duy trì sự cô lập giữa các tổ hợp. Lớp điều phối phải phản hồi đủ nhanh để hỗ trợ các thay đổi khối lượng công việc động mà không trở thành nút cổ chai.

Tích hợp Kubernetes cho phép tài nguyên có thể kết hợp phục vụ khối lượng công việc AI được container hóa sử dụng các nguyên thủy điều phối quen thuộc. GPU Operator và các extension tương tự quản lý tài nguyên accelerator, với các extension khả năng kết hợp cho phép phân bổ nhóm GPU động.

Cân nhắc về miền lỗi

Phân tách thay đổi các đặc tính miền lỗi. Một node bộ nhớ bị lỗi ảnh hưởng đến tất cả các tổ hợp sử dụng bộ nhớ đó thay vì một máy chủ duy nhất. Bán kính ảnh hưởng của lỗi thành phần mở rộng so với các kiến trúc máy chủ hội tụ.

Các chiến lược dự phòng phải tính đến các chế độ lỗi phân tách. Các nhóm bộ nhớ yêu cầu dự phòng qua các node vật lý. Các chính sách kết hợp nên tránh tập trung các khối lượng công việc quan trọng trên tài nguyên được chia sẻ. Giám sát phải theo dõi sức khỏe trên toàn fabric thay vì các máy chủ riêng lẻ.

Chuyên môn triển khai hạ tầng

Độ phức tạp của hạ tầng có thể kết hợp vượt quá triển khai máy chủ truyền thống. Cài đặt fabric, xác nhận hiệu suất và cấu hình điều phối đòi hỏi chuyên môn chuyên biệt mà hầu hết các tổ chức thiếu nội bộ.

550 kỹ sư thực địa của Introl hỗ trợ các tổ chức triển khai các kiến trúc hạ tầng tiên tiến bao gồm các hệ thống có thể kết hợp và phân tách.[^14] Công ty xếp hạng #14 trên Inc. 5000 năm 2025 với tăng trưởng 9.594% trong ba năm, phản ánh nhu cầu về dịch vụ hạ tầng chuyên nghiệp.[^15] Các triển khai có thể kết hợp được hưởng lợi từ kinh nghiệm với cài đặt và xác nhận fabric tốc độ cao.

Triển khai hạ tầng trên 257 địa điểm toàn cầu đòi hỏi các thực hành nhất quán bất kể địa lý.[^16] Introl quản lý các triển khai đạt 100.000 GPU với hơn 40.000 dặm hạ tầng mạng cáp quang, cung cấp quy mô hoạt động cho các tổ chức xây dựng hạ tầng AI có thể kết hợp.[^17]

Tương lai có thể kết hợp

Các kiến trúc phân tách, chia sẻ tài nguyên sẽ cho phép hạ tầng xử lý petabyte dữ liệu cần thiết cho AI, machine learning và các công nghệ sử dụng nhiều dữ liệu khác.[^18] Việc áp dụng CXL sẽ tăng tốc khi tiêu chuẩn hoàn thiện và các giải pháp của nhà cung cấp phổ biến.

Các tổ chức lập kế hoạch đầu tư hạ tầng AI nên đánh giá các kiến trúc có thể kết hợp cho các triển khai mà biến động khối lượng công việc khiến các máy chủ tỷ lệ cố định không hiệu quả. Lợi ích linh hoạt tăng theo quy mô: các triển khai lớn hơn đạt được cải thiện sử dụng tốt hơn từ việc gộp tài nguyên.

Sự chuyển đổi từ hạ tầng hội tụ sang có thể kết hợp đại diện cho một sự thay đổi cơ bản trong kiến trúc trung tâm dữ liệu. Các tổ chức thành thạo triển khai có thể kết hợp đạt được lợi thế linh hoạt chuyển thành hiệu quả chi phí và sự nhanh nhẹn triển khai. Cuộc cách mạng mà Jensen Huang mô tả bắt đầu với việc hiểu cách phân tách thay đổi kinh tế hạ tầng.

Những điểm chính

Cho các kiến trúc sư hạ tầng: - CXL memory pooling đạt tốc độ nhanh hơn 3,8 lần so với 200G RDMA và 6,5 lần so với 100G RDMA cho khối lượng công việc suy luận LLM - Độ trễ CXL: truy cập ngữ nghĩa bộ nhớ 200-500ns so với ~100μs NVMe so với >10ms chia sẻ dựa trên lưu trữ - Phân tách cho phép: tổ hợp 8 GPU cho huấn luyện, 2 GPU + bộ nhớ mở rộng cho suy luận, từ cùng một nhóm phần cứng

Cho các nhóm mua sắm: - Liqid EX-5410P: hộp GPU 10 slot hỗ trợ GPU 600W (H200, RTX Pro 6000, Gaudi 3) với CXL memory pooling 100TB - Các máy chủ tỷ lệ cố định truyền thống lãng phí tài nguyên: huấn luyện cần GPU tối đa với CPU khiêm tốn; suy luận cần nhiều bộ nhớ trên mỗi GPU - Có thể kết hợp giảm tổng phần cứng bằng cách gộp tài nguyên qua các khối lượng công việc; node GPU phục vụ huấn luyện ban ngày, suy luận ban đêm

Cho các kỹ sư nền tảng: - IBM Research khám phá CXL cho các hệ thống có thể kết hợp hoàn toàn qua fabric tốc độ cao, độ trễ thấp - Hợp tác GigaIO/Microchip: có thể kết hợp cấp đám mây kết hợp công nghệ PCIe và CXL - Tích hợp Kubernetes qua GPU Operator extension cho phép tài nguyên có thể kết hợp với điều phối quen thuộc

Cho các nhóm vận hành: - Miền lỗi thay đổi: node bộ nhớ bị lỗi ảnh hưởng tất cả tổ hợp sử dụng nó so với máy chủ đơn trong kiến trúc hội tụ - Các chiến lược dự phòng phải tính đến các chế độ lỗi phân tách; tránh tập trung khối lượng công việc trên tài nguyên được chia sẻ - Giám sát sức khỏe fabric thay thế giám sát máy chủ riêng lẻ; các chính sách kết hợp ngăn ngừa

[Nội dung bị cắt bớt cho bản dịch]

Điện toán phân tách cho AI: Kiến trúc hạ tầng có thể kết hợp

Phá vỡ ranh giới máy chủ

Mô hình phân tách

CXL cho phép memory pooling

CXL memory pooling hoạt động như thế nào

Vượt ra ngoài bộ nhớ: gộp tài nguyên đầy đủ

Các giải pháp trong ngành

Nền tảng có thể kết hợp của Liqid

Hệ thống có thể kết hợp của IBM Research

Hợp tác GigaIO và Microchip

Các cân nhắc về kiến trúc

Topology fabric

Yêu cầu điều phối

Cân nhắc về miền lỗi

Chuyên môn triển khai hạ tầng

Tương lai có thể kết hợp

Những điểm chính

You Might Also Like

AIOps cho Trung tâm Dữ liệu: Sử dụng LLM để Quản lý Hạ tầng ...

Cân bằng tải cho AI Inference: Phân phối yêu cầu trên hơn 10...

Feature Store và Cơ Sở Dữ Liệu MLOps: Hạ Tầng cho ML Product...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_