Hạ tầng Training và Inference: Tối ưu hóa cho các mô hình tải AI khác nhau

Blake Crosley

Jan 13, 2026 12 min read Disclaimer

Hạ tầng Training và Inference: Tối ưu hóa cho các mô hình tải AI khác nhau

Cập nhật ngày 8 tháng 12 năm 2025

Cập nhật tháng 12/2025: H200 (141GB HBM3e) đang nổi lên như trụ cột cho training, trong khi Blackwell GB200 bắt đầu triển khai sản xuất. Inference đang chuyển sang L40S, L4 và AMD MI300X để tiết kiệm chi phí—MI300X hiện đạt hiệu suất giá ngang bằng với H100 cho inference. Intel Gaudi 3 đang được chú ý trên IBM Cloud. Speculative decoding và continuous batching (vLLM, TensorRT-LLM) đang thay đổi kinh tế học inference. Khoảng cách training-inference ngày càng lớn: training yêu cầu kết nối 800G+ trong khi inference chạy trên Ethernet thông thường.

Hạ tầng training tiêu tốn hàng triệu đô la trong nhiều tháng để tạo ra một mô hình, trong khi hạ tầng inference phục vụ mô hình đó hàng tỷ lần với độ trễ cấp micro giây. Một lần training GPT-4 tốn 100 triệu đô la và yêu cầu 25.000 GPU A100 chạy trong 90 ngày. Phục vụ mô hình đó cần 128.000 GPU phân bố toàn cầu, được tối ưu cho độ trễ thay vì thông lượng. Các mô hình tải khác biệt căn bản này đòi hỏi các phương pháp hạ tầng riêng biệt mà các tổ chức thường nhầm lẫn, dẫn đến chi phí cao hơn 40% và mức sử dụng thấp hơn 60%.

Đặc điểm cơ bản của tải công việc

Tải công việc training thể hiện tính song song lớn với các mô hình đồng bộ hóa đều đặn. Các forward pass xử lý các batch hàng nghìn mẫu đồng thời, tính toán gradient đồng bộ trên tất cả GPU tham gia mỗi iteration. Thao tác all-reduce này yêu cầu băng thông tổng hợp vượt quá 1.6Tb/s cho các mô hình ngôn ngữ lớn. Các công việc training chạy liên tục trong nhiều tuần hoặc tháng, lưu checkpoint tiến độ theo giờ. Sự cố phần cứng yêu cầu phát hiện và phục hồi ngay lập tức để tránh lãng phí tính toán.

Tải công việc inference xử lý các yêu cầu riêng lẻ với yêu cầu độ trễ cấp mili giây. Kích thước batch thường dao động từ 1 đến 32, bị giới hạn bởi ràng buộc độ trễ thay vì dung lượng bộ nhớ. Các mô hình yêu cầu tuân theo chu kỳ ngày đêm với biến động 10 lần giữa đỉnh và đáy. Phân bố địa lý đảm bảo độ trễ dưới 100ms cho người dùng toàn cầu. Sự cố phần cứng ảnh hưởng đến tính khả dụng dịch vụ ngay lập tức, đòi hỏi khả năng dự phòng và chuyển đổi nhanh.

Các mô hình truy cập bộ nhớ khác nhau đáng kể giữa các tải công việc. Training thực hiện truy cập bộ nhớ đều đặn, có thể dự đoán được, tối ưu cho việc sử dụng băng thông. Kích thước batch lớn phân bổ chi phí truyền bộ nhớ qua nhiều mẫu. Trọng số mô hình giữ nguyên trong khi activation và gradient chảy qua các hệ thống phân cấp bộ nhớ. Inference thể hiện các mô hình truy cập không đều phụ thuộc vào chuỗi đầu vào. Dynamic batching và độ dài chuỗi thay đổi tạo ra yêu cầu bộ nhớ không thể dự đoán. Key-value caching cho các mô hình transformer tiêu thụ hàng gigabyte cho mỗi yêu cầu.

Các chỉ số sử dụng tính toán cho thấy sự khác biệt căn bản. Training đạt 85-95% sử dụng GPU thông qua việc điều chỉnh kích thước batch cẩn thận và tối ưu hóa pipeline dữ liệu. Băng thông bộ nhớ trở thành điểm nghẽn cho các mô hình lớn, với các đơn vị tính toán chờ đợi di chuyển dữ liệu. Inference hiếm khi vượt quá 40% sử dụng do các ràng buộc độ trễ và biến động yêu cầu. Kích thước batch nhỏ không tận dụng hết khả năng xử lý song song. Chi phí truyền mạng và tiền xử lý làm giảm thêm mức sử dụng hiệu quả.

Các mô hình giao tiếp phân biệt training phân tán với inference serving. Training yêu cầu giao tiếp all-to-all để đồng bộ hóa gradient, tạo ra lưu lượng 100Gb/s liên tục giữa các node. Topology mạng ảnh hưởng nghiêm trọng đến hiệu suất training, với bất kỳ điểm nghẽn nào cũng làm giảm thông lượng tổng thể. Giao tiếp inference chủ yếu là client-to-server với lưu lượng inter-node tối thiểu ngoại trừ model parallel serving. Các load balancer phân phối yêu cầu qua các node inference một cách độc lập.

Chiến lược tối ưu hóa phần cứng

Lựa chọn GPU khác nhau đáng kể giữa các triển khai training và inference. Các cluster training ưu tiên GPU NVIDIA H100 với bộ nhớ HBM3 80GB hỗ trợ toàn bộ dung lượng mô hình. Băng thông bộ nhớ 3.35TB/s cho phép tính toán gradient và cập nhật tham số nhanh chóng. Kết nối NVLink cung cấp băng thông 900GB/s giữa các GPU tăng tốc các thao tác collective. Các tổ chức đầu tư 30.000 đô la cho mỗi H100 cho hạ tầng training, chấp nhận mức giá cao để có hiệu suất tối đa.

Các triển khai inference ngày càng áp dụng GPU NVIDIA L40S hoặc L4 được tối ưu cho hiệu quả chi phí. L40S với bộ nhớ 48GB xử lý hầu hết các tải inference với giá 15.000 đô la mỗi GPU. GPU L4 với giá 5.000 đô la mỗi chiếc xuất sắc cho triển khai edge và các mô hình nhỏ hơn. GPU AMD MI210 cung cấp hiệu suất inference cạnh tranh ở mức 60% giá NVIDIA. Accelerator Intel Gaudi2 đạt thông lượng inference tương tự cho các mô hình transformer với giá 10.000 đô la mỗi đơn vị. Sự đa dạng này giảm chi phí inference 50% so với phần cứng training.

Tối ưu hóa hệ thống phân cấp bộ nhớ khác nhau giữa các tải công việc. Training yêu cầu dung lượng HBM tối đa để chứa tham số mô hình, trạng thái optimizer và gradient đồng thời. Một mô hình 70B tham số yêu cầu 840GB cho training mixed precision bao gồm trạng thái Adam optimizer. Inference chỉ cần trọng số mô hình và bộ nhớ activation, yêu cầu 140GB cho cùng một mô hình. Việc giảm 6 lần này cho phép triển khai trên các GPU nhỏ hơn, rẻ hơn.

Yêu cầu CPU thay đổi dựa trên nhu cầu tiền xử lý. Các cluster training phân bổ 32 lõi CPU cho mỗi GPU để tải dữ liệu, augmentation và tiền xử lý. Lưu trữ NVMe hiệu suất cao cung cấp dữ liệu cho các pipeline training ở tốc độ 10GB/s mỗi node. Các server inference yêu cầu ít tài nguyên CPU hơn, thường 8-16 lõi mỗi GPU, tập trung vào định tuyến yêu cầu và định dạng phản hồi. Các triển khai inference edge có thể sử dụng serving chỉ CPU cho các mô hình dưới 7B tham số.

Các accelerator thay thế cung cấp các tùy chọn tiết kiệm chi phí cho các tải công việc cụ thể. Google TPU v4 pod xuất sắc trong training quy mô lớn với 4.096 chip cung cấp 1.1 exaflops. Chip AWS Inferentia2 tối ưu inference ở mức 0.75 đô la cho mỗi triệu token, rẻ hơn 70% so với serving dựa trên GPU. Hệ thống Cerebras CS-2 tăng tốc training cho các mô hình vừa trong bộ nhớ 40GB. Các accelerator chuyên dụng này giảm chi phí khi các mô hình tải công việc phù hợp với tham số thiết kế của chúng.

Yêu cầu kiến trúc mạng

Mạng training yêu cầu băng thông tối đa với độ trễ tối thiểu cho các thao tác collective. Các triển khai InfiniBand sử dụng switch NDR 400Gb/s cung cấp độ trễ dưới 1 micro giây cho các thao tác RDMA. Topology fat-tree đảm bảo giao tiếp không bị chặn giữa bất kỳ cặp GPU nào. Thiết kế tối ưu rail dành riêng các đường mạng riêng biệt cho gradient aggregation và giao tiếp parameter server. Research SuperCluster của Meta sử dụng InfiniBand 4 rail cung cấp băng thông tổng hợp 1.6Tb/s cho mỗi GPU.

Mạng inference ưu tiên phân bố địa lý và kết nối edge. Tích hợp Content Delivery Network (CDN) giảm độ trễ cho người dùng toàn cầu. Định tuyến Anycast chuyển hướng yêu cầu đến các cluster inference có sẵn gần nhất. Ethernet 100Gb/s đủ cho hầu hết các triển khai inference, với RoCEv2 cho phép RDMA khi cần. Các load balancer phân phối yêu cầu qua các GPU có sẵn dựa trên mức sử dụng hiện tại và thời gian phản hồi.

Các mô hình lưu lượng đông-tây khác nhau đáng kể. Training tạo ra 100TB trao đổi gradient hàng ngày cho training mô hình lớn. Các thao tác all-reduce tạo ra các điểm nóng yêu cầu thiết kế mạng cẩn thận. Lưu lượng inference chủ yếu là bắc-nam giữa client và server. Model serving tạo ra 1-10GB/s lưu lượng phản hồi cho mỗi GPU tùy thuộc vào tốc độ yêu cầu và kích thước đầu ra.

Yêu cầu khả năng phục hồi mạng phản ánh đặc điểm tải công việc. Mạng training chịu được gián đoạn ngắn thông qua cơ chế phục hồi checkpoint. Sự cố kéo dài lãng phí tính toán đắt tiền, thúc đẩy các đường mạng dự phòng. Mạng inference yêu cầu chuyển đổi ngay lập tức để duy trì tính khả dụng dịch vụ. Thời gian hội tụ BGP dưới 1 giây đảm bảo tác động tối thiểu đến người dùng trong các sự cố.

Các cân nhắc bảo mật ảnh hưởng đến thiết kế mạng khác nhau. Mạng training hoạt động trong môi trường tin cậy, ưu tiên hiệu suất hơn mã hóa. Kiểm soát truy cập dataset và bảo vệ checkpoint mô hình tập trung nỗ lực bảo mật. Mạng inference đối mặt với tiếp xúc internet yêu cầu mã hóa TLS, bảo vệ DDoS và xác thực API. Web Application Firewall lọc các yêu cầu độc hại trước khi đến các server inference.

Mô hình thiết kế hệ thống lưu trữ

Hệ thống lưu trữ training tối ưu cho thông lượng tuần tự liên tục. Các hệ thống file song song như Lustre hoặc GPFS cung cấp băng thông tổng hợp 100GB/s cho streaming dataset. NVMe-oF (NVMe over Fabrics) truyền các shard dataset trực tiếp đến bộ nhớ GPU. Các lớp caching phân tán sử dụng Alluxio hoặc JuiceFS tăng tốc xử lý epoch lặp lại. Hạ tầng training của OpenAI đạt băng thông lưu trữ tổng hợp 1TB/s trên các cluster của họ.

Lưu trữ checkpoint yêu cầu tối ưu hóa khác. Các lần training ghi checkpoint 50-100TB mỗi 4 giờ cho các mô hình lớn. Các hệ thống object storage như MinIO hoặc Ceph xử lý ghi checkpoint mà không làm gián đoạn thông lượng training. Erasure coding cung cấp khả năng chịu lỗi với 20% chi phí lưu trữ so với 200% cho replication. Lưu trữ phân tầng di chuyển các checkpoint cũ hơn sang phương tiện rẻ hơn trong khi duy trì các checkpoint gần đây trên NVMe để phục hồi nhanh.

Lưu trữ inference tập trung vào tốc độ tải mô hình và caching. Các mô hình tải từ object storage khi khởi động container inference, yêu cầu 10-30 giây cho các mô hình 70B tham số. Caching NVMe cục bộ tăng tốc các lần tải mô hình tiếp theo xuống dưới 2 giây. Key-value cache cho các mô hình transformer duy trì qua các yêu cầu, yêu cầu 100GB-1TB lưu trữ tốc độ cao cho mỗi node inference. Redis hoặc Apache Ignite cung cấp caching phân tán cho context chia sẻ qua các server inference.

Phiên bản dataset và theo dõi lineage hỗ trợ khả năng tái tạo training. Data Version Control (DVC) hoặc Delta Lake theo dõi các sửa đổi dataset theo thời gian. Các metadata store ghi lại chính xác các phiên bản dataset được sử dụng cho mỗi lần training. Feature store như Tecton hoặc Feast cung cấp các feature nhất quán giữa training và inference. Các hệ thống này ngăn training-serving skew làm giảm hiệu suất mô hình.

Chiến lược phân tầng lưu trữ khác nhau dựa trên mô hình truy cập. Dataset training di chuyển qua các tầng NVMe → SSD → HDD → Glacier dựa trên tần suất truy cập. Dataset nóng giữ trên NVMe cung cấp 7GB/s mỗi ổ đĩa. Lưu trữ inference duy trì các mô hình trên NVMe vô thời hạn do truy cập liên tục. Dữ liệu logging và metrics tuân theo các mô hình phân tầng truyền thống độc lập với tải AI.

Chiến lược và mô hình mở rộng quy mô

Mở rộng quy mô ngang cho training yêu cầu cân nhắc cẩn thận về chi phí giao tiếp. Weak scaling duy trì kích thước batch không đổi cho mỗi GPU, tăng kích thước batch toàn cục với quy mô cluster. Strong scaling chia kích thước batch toàn cục cố định qua nhiều GPU hơn, cải thiện time-to-train nhưng giảm hiệu quả. Linear scaling đạt hiệu quả 90% lên đến 512 GPU cho hầu hết các mô hình. Vượt quá điểm này, chi phí giao tiếp chiếm ưu thế, giảm hiệu quả xuống dưới 70%.

Model parallelism cho phép training các mô hình vượt quá dung lượng bộ nhớ GPU đơn. Pipeline parallelism chia mô hình qua các GPU theo layer, đạt hiệu quả 80% với lập lịch cẩn thận. Tensor parallelism chia các layer riêng lẻ qua các GPU, yêu cầu kết nối băng thông cao. Expert parallelism cho các mô hình Mixture-of-Experts mở rộng đến hàng nghìn GPU. Các kỹ thuật này kết hợp trong chiến lược 3D parallelism, với GPT-4 sử dụng cả ba chiều qua 25.000 GPU.

Mở rộng inference tuân theo các mô hình hướng yêu cầu. Horizontal pod autoscaling trong Kubernetes phản hồi với CPU, bộ nhớ hoặc các metric tùy chỉnh. Các quyết định mở rộng xem xét hình phạt cold start 10-30 giây cho việc tải mô hình. Predictive autoscaling sử dụng các mô hình lịch sử cung cấp trước dung lượng cho nhu cầu dự kiến. Tích hợp spot instance giảm chi phí 60% cho các tải inference chịu lỗi.

Các chiến lược phân bố địa lý khác biệt căn bản. Các cluster training tập trung tại một địa điểm duy nhất

[Nội dung bị cắt ngắn để dịch]

Hạ tầng Training và Inference: Tối ưu hóa cho các mô hình tải AI khác nhau

Đặc điểm cơ bản của tải công việc

Chiến lược tối ưu hóa phần cứng

Yêu cầu kiến trúc mạng

Mô hình thiết kế hệ thống lưu trữ

Chiến lược và mô hình mở rộng quy mô

You Might Also Like

Máy Tính ROI Làm Mát Ngâm Chìm: Hoàn Vốn 2-4 Năm Cho Khối Lư...

Hành lang AI Vương quốc Anh: Trung tâm Điện toán Mới Nổi của...

Hiệu quả Sử dụng Nước: Làm mát Trung tâm Dữ liệu AI Không Gâ...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_