Tối ưu hóa phục vụ mô hình: Lượng tử hóa, Cắt tỉa và Chưng cất cho Suy luận
Cập nhật ngày 8 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Suy luận FP8 hiện đã trở thành tiêu chuẩn sản xuất trên H100/H200, với INT4 (AWQ, GPTQ, GGUF) cho phép chạy các mô hình 70B trên GPU tiêu dùng. Giải mã suy đoán mang lại thông lượng tăng 2-3 lần cho việc sinh tự hồi quy. vLLM và TensorRT-LLM đạt hiệu suất suy luận tăng 5 lần thông qua xử lý theo lô liên tục. Hệ sinh thái Llama.cpp cho phép suy luận trên CPU cho các mô hình nhỏ hơn. Các mô hình Mixture-of-Experts (Mixtral, DBRX) đang thay đổi kinh tế học chưng cất—8x7B đạt chất lượng gần bằng 70B với chi phí tính toán chỉ bằng một phần nhỏ.
Một yêu cầu suy luận GPT-3 duy nhất có chi phí $0.06 ở độ chính xác đầy đủ nhưng giảm xuống còn $0.015 sau khi tối ưu hóa, giảm 75% làm thay đổi kinh tế học AI ở quy mô lớn. Các kỹ thuật tối ưu hóa phục vụ mô hình bao gồm lượng tử hóa, cắt tỉa và chưng cất giúp giảm yêu cầu hạ tầng lên đến 90% trong khi vẫn duy trì độ chính xác chấp nhận được. Những kỹ thuật này quyết định liệu các ứng dụng AI có đạt được lợi nhuận hay tiêu hao tài nguyên do chi phí tính toán không bền vững. Hướng dẫn này xem xét các chiến lược triển khai thực tế mà các đội ngũ sản xuất áp dụng để phục vụ hàng tỷ yêu cầu suy luận hàng ngày một cách kinh tế.
Nền tảng và Triển khai Lượng tử hóa
Lượng tử hóa giảm độ chính xác số từ số thực dấu phẩy động 32-bit xuống số nguyên 8-bit, thu nhỏ kích thước mô hình 75% và tăng tốc suy luận 2-4 lần. Quá trình này ánh xạ các giá trị số thực liên tục sang các biểu diễn số nguyên rời rạc, đánh đổi độ mất chính xác tối thiểu để có được hiệu suất đáng kể. Các framework hiện đại tự động hóa quy trình lượng tử hóa, nhưng việc hiểu cơ chế cơ bản cho phép cấu hình tối ưu cho các trường hợp sử dụng cụ thể.
Lượng tử hóa sau huấn luyện (PTQ) chuyển đổi các mô hình đã huấn luyện mà không cần huấn luyện lại, hoàn thành trong vài phút thay vì vài ngày. Quá trình thu thập thống kê kích hoạt sử dụng dữ liệu hiệu chuẩn đại diện, xác định các hệ số tỷ lệ tối ưu cho lượng tử hóa trọng số và kích hoạt. TensorRT của NVIDIA đạt được lượng tử hóa INT8 với độ suy giảm chính xác dưới 1% cho ResNet-50, đồng thời giảm độ trễ 71%. Edge TPU của Google yêu cầu lượng tử hóa INT8, khiến PTQ trở nên thiết yếu cho các kịch bản triển khai biên.
Huấn luyện nhận biết lượng tử hóa (QAT) mô phỏng lượng tử hóa trong quá trình huấn luyện, cho phép mạng thích ứng với độ chính xác giảm. Các nút lượng tử hóa giả được chèn trong các lần truyền tiến mô hình hóa các hiệu ứng lượng tử hóa trong khi vẫn duy trì gradient số thực cho lan truyền ngược. Cách tiếp cận này phục hồi độ chính xác bị mất trong PTQ, đạt hiệu suất gần bằng số thực với suy luận số nguyên. Triển khai QAT của Meta cho các mô hình đề xuất duy trì 99,5% độ chính xác của FP32 trong khi cho phép cải thiện thông lượng 3,5 lần trên các máy chủ suy luận sản xuất.
Lượng tử hóa động lượng tử hóa trọng số tĩnh nhưng tính toán tỷ lệ kích hoạt động theo từng lô, cân bằng hiệu suất và độ chính xác. Lượng tử hóa động của PyTorch giảm kích thước mô hình BERT 75% với cải thiện tốc độ 2 lần và mất độ chính xác không đáng kể. Kỹ thuật này xuất sắc cho các mô hình có phân phối đầu vào thay đổi nơi hiệu chuẩn tĩnh tỏ ra không đủ. Thư viện Optimum của Hugging Face triển khai lượng tử hóa động cho các mô hình transformer, đạt được giảm độ trễ 40% cho các tác vụ trả lời câu hỏi.
Các chiến lược độ chính xác hỗn hợp áp dụng các mức lượng tử hóa khác nhau cho các lớp dựa trên phân tích độ nhạy. Các lớp quan trọng duy trì độ chính xác FP16 trong khi các lớp có khả năng chịu đựng sử dụng INT8 hoặc thậm chí INT4. Neural Engine của Apple triển khai lượng tử hóa theo kênh với trọng số 4-bit và kích hoạt 8-bit, đạt được giảm kích thước 85% cho các mô hình trên thiết bị. Các công cụ phân tích độ nhạy xác định các lớp nơi lượng tử hóa mạnh gây ra suy giảm độ chính xác, hướng dẫn phân bổ độ chính xác cho sự đánh đổi hiệu suất-độ chính xác tối ưu.
Chiến lược Cắt tỉa cho Nén mô hình
Cắt tỉa có cấu trúc loại bỏ toàn bộ kênh, bộ lọc hoặc đầu attention, tạo ra các mô hình nhỏ hơn dày đặc tương thích với phần cứng tiêu chuẩn. Cách tiếp cận này xác định các cấu trúc ít quan trọng nhất thông qua độ lớn, gradient hoặc tiêu chí bậc hai, loại bỏ chúng trong khi vẫn duy trì kết nối mô hình. ASP (Automatic Sparsity) của NVIDIA đạt được độ thưa có cấu trúc 2:4, nơi hai trong mỗi bốn trọng số bằng không, cho phép thông lượng tăng 2 lần trên GPU A100 mà không cần kernel chuyên biệt.
Cắt tỉa theo độ lớn loại bỏ các trọng số dưới ngưỡng giá trị, tạo ra các ma trận thưa yêu cầu các engine thực thi chuyên biệt. Cắt tỉa lặp dần dần tăng độ thưa trong quá trình huấn luyện, cho phép mạng thích ứng với việc loại bỏ kết nối. Nghiên cứu của Google chứng minh độ thưa 90% cho BERT với mất độ chính xác tối thiểu, giảm kích thước mô hình từ 420MB xuống 42MB. Tuy nhiên, phép nhân ma trận thưa yêu cầu các thư viện chuyên biệt như cuSPARSE, hạn chế tính linh hoạt triển khai.
Giả thuyết vé số hướng dẫn cắt tỉa bằng cách xác định các mạng con thưa huấn luyện đến độ chính xác đầy đủ từ khởi tạo ngẫu nhiên. Những "vé trúng thưởng" này duy trì hiệu suất mô hình gốc ở 10-20% kích thước ban đầu. Nghiên cứu của MIT tiết lộ vé trúng thưởng chuyển giao giữa các bộ dữ liệu, cho phép các kiến trúc đã cắt tỉa trước cho các miền cụ thể. Cách tiếp cận này yêu cầu nhiều lần lặp huấn luyện nhưng tạo ra các mạng thưa vượt trội so với cắt tỉa sau huấn luyện.
Cắt tỉa kênh nhắm vào các mạng neural tích chập, loại bỏ toàn bộ bộ lọc dựa trên điểm quan trọng. Khai triển Taylor xấp xỉ tác động độ chính xác của việc loại bỏ kênh, hướng dẫn các quyết định cắt tỉa. MobileNetV3 được cắt tỉa 30% duy trì độ chính xác ImageNet trong khi giảm độ trễ 25% trên thiết bị di động. Các công cụ cắt tỉa tự động như Neural Network Intelligence (NNI) triển khai cắt tỉa kênh với tìm kiếm kiến trúc, tìm cấu hình tối ưu mà không cần can thiệp thủ công.
Cắt tỉa đầu attention nhắm cụ thể vào các kiến trúc transformer, loại bỏ các đầu self-attention dư thừa. Phân tích cho thấy nhiều đầu học các mẫu tương tự, cho phép loại bỏ mà không mất chức năng. DynaBeRT của Microsoft cắt tỉa 75% đầu attention trong BERT-base trong khi vẫn duy trì 97% độ chính xác ban đầu. Kỹ thuật này kết hợp với bỏ lớp, tạo ra các mô hình thích ứng điều chỉnh độ phức tạp dựa trên độ khó đầu vào.
Kỹ thuật Chưng cất Kiến thức
Chưng cất kiến thức chuyển giao kiến thức từ các mô hình giáo viên lớn sang các mô hình học sinh nhỏ gọn, đạt được giảm kích thước 10-100 lần. Học sinh học cách bắt chước hành vi của giáo viên thay vì chỉ khớp nhãn thực tế, nắm bắt các ranh giới quyết định tinh tế. Chưng cất GPT-3 của OpenAI thành các mô hình nhỏ hơn cung cấp năng lượng cho tầng miễn phí của ChatGPT, giảm chi phí phục vụ 85% trong khi vẫn duy trì chất lượng hội thoại.
Điều chỉnh nhiệt độ trong chưng cất làm mềm phân phối xác suất, tiết lộ kiến thức ngầm trong các dự đoán của giáo viên. Nhiệt độ cao hơn phơi bày mối quan hệ giữa các lớp mà nhãn one-hot che khuất. DistilBERT của Google đạt 97% hiệu suất của BERT với ít hơn 40% tham số và suy luận nhanh hơn 60%. Kiến trúc học sinh thường phản chiếu cấu trúc giáo viên ở quy mô giảm, mặc dù chưng cất không đồng nhất cho phép chuyển giao kiến thức xuyên kiến trúc.
Chưng cất đặc trưng khớp các biểu diễn trung gian ngoài các dự đoán cuối cùng, chuyển giao trực tiếp các đặc trưng đã học. Học sinh học cách tái tạo các kích hoạt của giáo viên ở nhiều lớp, nắm bắt kiến thức phân cấp. DeiT (Data-efficient Image Transformers) của Facebook chưng cất vision transformers từ CNN, đạt độ chính xác ImageNet với ít hơn 5 lần số lần lặp huấn luyện. Chưng cất đa lớp đặc biệt hiệu quả cho các mạng sâu nơi đầu ra cuối cùng cung cấp tín hiệu học không đủ.
Chưng cất trực tuyến huấn luyện học sinh và giáo viên đồng thời, loại bỏ các giai đoạn huấn luyện giáo viên riêng biệt. Học tập hợp tác giữa nhiều học sinh tạo ra các giáo viên ensemble ngầm mà không cần các mô hình lớn rõ ràng. Chưng cất trực tuyến của Baidu cho nhận dạng giọng nói giảm thời gian huấn luyện 40% trong khi cải thiện độ chính xác học sinh 2%. Cách tiếp cận này phù hợp với các kịch bản nơi các mô hình giáo viên không tồn tại hoặc yêu cầu học liên tục ngăn cản giáo viên tĩnh.
Chưng cất tiến bộ dần dần chuyển giao kiến thức thông qua các mô hình trung gian, thu hẹp khoảng cách lớn giữa giáo viên và học sinh. Các chuỗi chưng cất tuần tự tạo ra các bước đệm từ giáo viên 175B tham số đến học sinh 1B tham số. Huấn luyện constitutional AI của Anthropic sử dụng chưng cất tiến bộ để duy trì các thuộc tính căn chỉnh trong khi giảm kích thước mô hình 50 lần. Mỗi bước chưng cất tập trung vào các khả năng cụ thể, bảo tồn các hành vi quan trọng trong khi đơn giản hóa các hành vi khác.
Tối ưu hóa Đặc thù Phần cứng
Tối ưu hóa TensorRT cho GPU NVIDIA kết hợp hợp nhất lớp, tự động điều chỉnh kernel và hiệu chuẩn độ chính xác. Trình biên dịch hợp nhất các hoạt động tuần tự thành các kernel đơn lẻ, giảm lưu lượng bộ nhớ và chi phí khởi chạy kernel. Các chuỗi Convolution-ReLU-pooling hợp nhất thành các hoạt động nguyên khối, cải thiện thông lượng 30%. Tối ưu hóa hướng dẫn theo profile chọn các kernel tối ưu cho các hình dạng đầu vào cụ thể, đạt được tăng tốc 5 lần cho suy luận BERT trên GPU T4.
Intel OpenVINO nhắm vào CPU x86 với vectorization và tối ưu hóa cache cho suy luận không có GPU. Bộ công cụ triển khai lượng tử hóa INT8 với các lệnh VNNI trên bộ xử lý Ice Lake, đạt được cải thiện thông lượng 4 lần. Tối ưu hóa đồ thị loại bỏ các hoạt động dư thừa và gấp các hằng số, giảm tính toán 20%. Amazon triển khai OpenVINO cho suy luận CPU đạt $0.002 cho mỗi nghìn suy luận, rẻ hơn 90% so với phục vụ GPU cho các mô hình nhỏ.
Apple Core ML tối ưu hóa cho Neural Engine và Metal Performance Shaders trên các thiết bị iOS. Framework triển khai các đường dẫn float 16-bit và số nguyên 8-bit được tối ưu hóa cho Apple Silicon. Biên dịch trên thiết bị thích ứng các mô hình với khả năng phần cứng cụ thể, chọn các chiến lược độ chính xác và thực thi tối ưu. iPhone 15 Pro đạt 35 TOPS cho phép suy luận Stable Diffusion thời gian thực thông qua tối ưu hóa Core ML.
Biên dịch Edge TPU yêu cầu các ràng buộc kiến trúc cụ thể và các cách tiếp cận lượng tử hóa. Các mô hình phải sử dụng TensorFlow Lite với lượng tử hóa INT8 và các hoạt động được hỗ trợ. Trình biên dịch phân vùng các mô hình giữa Edge TPU và CPU dựa trên khả năng tương thích hoạt động. Edge TPU của Google đạt 4 TOPS ở mức tiêu thụ năng lượng 2W, cho phép phân tích video thời gian thực trên các thiết bị nhúng. Coral Dev Board chạy MobileNet ở 400 FPS chỉ tiêu thụ 2,5W tổng công suất hệ thống.
Tối ưu hóa AMD ROCm tận dụng các thư viện MIOpen và hợp nhất đồ thị cho các bộ tăng tốc dòng MI. Framework triển khai các kernel FlashAttention giảm yêu cầu băng thông bộ nhớ 50% cho các mô hình transformer. Thư viện kernel có thể tổ hợp cho phép các mẫu hợp nhất tùy chỉnh đặc thù cho kiến trúc AMD. Triển khai của Stability AI trên MI250X đạt 80% hiệu suất của NVIDIA A100 với chi phí 60% thông qua tối ưu hóa ROCm.
Tích hợp Pipeline Tối ưu hóa
Các pipeline tối ưu hóa đầu-cuối kết hợp nhiều kỹ thuật để nén và tăng tốc tối đa. Framework DeepSpeed Compression của Microsoft điều phối cắt tỉa, lượng tử hóa và chưng cất trong các quy trình thống nhất. Hệ thống đạt được nén mô hình 10 lần với giảm độ trễ 3 lần cho các mô hình GPT. Tìm kiếm siêu tham số tự động xác định các cấu hình nén tối ưu cân bằng nhiều mục tiêu.
Các framework thử nghiệm A/B đánh giá tác động tối ưu hóa đối với các chỉ số kinh doanh ngoài độ chính xác. Netflix theo dõi các chỉ số tương tác khi triển khai các mô hình đề xuất đã tối ưu, đảm bảo nén không giảm sự hài lòng của người dùng. Các chiến lược triển khai dần dần thử nghiệm các mô hình đã tối ưu trên các phân khúc người dùng nhỏ trước khi triển khai đầy đủ. Các bảng điều khiển chỉ số so sánh các mô hình đã tối ưu và cơ sở trên các chiều độ trễ, chi phí và chất lượng. Nền tảng Michelangelo của Uber tự động hoàn nguyên các tối ưu hóa làm suy giảm KPI kinh doanh vượt quá ngưỡng.
Tối ưu hóa liên tục thích ứng các mô hình với các yêu cầu thay đổi và khả năng phần cứng. Các pipeline huấn luyện lại tự động kết hợp các kỹ thuật tối ưu hóa mới khi chúng xuất hiện. ONNX Runtime của Facebook tự động áp dụng các tối ưu hóa mới