Kinh tế đơn vị suy luận: Chi phí thực trên mỗi triệu token
Cập nhật ngày 8 tháng 12 năm 2025
Cập nhật tháng 12/2025: Chi phí suy luận LLM giảm 10 lần mỗi năm—nhanh hơn cả tốc độ tính toán PC trong cuộc cách mạng vi xử lý hay băng thông thời kỳ bùng nổ dotcom. Hiệu năng tương đương GPT-4 hiện chỉ còn $0.40/triệu token so với $20 vào cuối năm 2022. Giá cloud H100 ổn định ở mức $2.85-$3.50/giờ sau khi giảm 64-75% từ đỉnh. DeepSeek khuấy động thị trường với giá thấp hơn 90% so với các đối thủ lớn. Tự vận hành đạt điểm hòa vốn cần sử dụng GPU trên 50% cho mô hình 7B, trên 10% cho mô hình 13B. Lượng tử hóa giảm chi phí vận hành 60-70%. Giải mã suy đoán cắt giảm độ trễ 2-3 lần.
Thị trường suy luận LLM thách thức các quy luật kinh tế công nghệ thông thường. Giá giảm nhanh hơn cả tốc độ tính toán PC trong cuộc cách mạng vi xử lý hay băng thông thời kỳ bùng nổ dotcom—hiệu năng tương đương rẻ đi 10 lần mỗi năm.¹ Một khả năng từng tốn $20 cho mỗi triệu token vào cuối năm 2022 giờ chỉ còn $0.40.² Tuy nhiên, các tổ chức vẫn gặp khó khăn trong việc hiểu chi phí suy luận thực sự của họ vì định giá theo token che khuất thực tế hạ tầng, tỷ lệ sử dụng GPU quyết định kinh tế đơn vị thực tế, và các kỹ thuật tối ưu tạo ra sự chênh lệch chi phí theo cấp độ lớn. Nắm vững kinh tế suy luận quyết định liệu các triển khai AI tạo ra giá trị hay đang chảy máu vốn.
Bối cảnh định giá suy luận tháng 12/2025
Giá API trải dài ba bậc cấp số nhân tùy thuộc vào năng lực mô hình, nhà cung cấp và mức độ tối ưu. Hiểu bối cảnh hiện tại cung cấp ngữ cảnh cho việc ra quyết định kinh tế.
Mô hình phân khúc tiết kiệm hiện chỉ tốn một phần nhỏ xu cho mỗi triệu token. Gemini Flash-Lite của Google dẫn đầu với $0.075 cho mỗi triệu token đầu vào và $0.30 cho mỗi triệu token đầu ra.³ Các mô hình mã nguồn mở thông qua nhà cung cấp như Together.ai hay Hyperbolic còn thấp hơn—Llama 3.2 3B chạy với giá $0.06 cho mỗi triệu token, đạt điểm MMLU 42 với chi phí bằng 1/1000 so với ba năm trước.⁴
Mô hình sản xuất phân khúc trung cân bằng giữa năng lực và chi phí. Claude Sonnet 4 có giá $3 cho mỗi triệu token đầu vào và $15 cho mỗi triệu token đầu ra.⁵ Mô hình R1 của DeepSeek đã khuấy động thị trường với giá $0.55 đầu vào và $2.19 đầu ra cho mỗi triệu token—thấp hơn 90% so với các đối thủ phương Tây với năng lực suy luận tương đương.⁶ Các nhà cung cấp Trung Quốc liên tục cắt giá so với các đối thủ phương Tây, tạo áp lực giá có lợi cho tất cả người mua.
Mô hình năng lực tiên phong có mức giá cao. Claude Opus 4 có giá $15 cho mỗi triệu token đầu vào và $75 cho mỗi triệu token đầu ra.⁷ GPT-4 và các mô hình tiên phong tương tự có giá tương đương, được biện minh bởi các năng lực mà mô hình nhỏ hơn không thể sao chép bất kể tối ưu chi phí như thế nào.
Sự khác biệt giữa nhà cung cấp làm tăng thêm sự phức tạp. Với các mô hình giống hệt nhau, giá có thể chênh lệch 10 lần giữa nhà cung cấp rẻ nhất và đắt nhất.⁸ Một mô hình có thể tốn $0.90 cho mỗi triệu token từ nhà cung cấp rẻ nhất, $3.50 ở mức trung bình, và $9.50 từ nhà đắt nhất. So sánh giữa các nhà cung cấp tác động đáng kể đến kinh tế trước khi thực hiện bất kỳ tối ưu kỹ thuật nào.
Sự bất đối xứng giá token đầu ra phản ánh chi phí thực tế. OpenAI, Anthropic và Google định giá token đầu ra cao hơn 3-5 lần so với token đầu vào vì việc tạo đầu ra đòi hỏi xử lý tuần tự trong khi xử lý đầu vào có thể song song hóa hiệu quả.⁹ Các ứng dụng tạo đầu ra dài đối mặt với kinh tế khác biệt so với những ứng dụng xử lý đầu vào dài với phản hồi ngắn.
Hiểu chi phí hạ tầng GPU thực sự
Đằng sau giá API là hạ tầng GPU với cấu trúc chi phí riêng. Hiểu những quy luật kinh tế này cho phép đưa ra quyết định xây dựng hay mua sáng suốt.
Chi phí mua phần cứng bắt đầu cao và tiếp tục tích lũy. GPU NVIDIA H100 có giá $25,000-$40,000 mỗi card, với hệ thống máy chủ 8-GPU hoàn chỉnh lên đến $200,000-$400,000 bao gồm hạ tầng.¹⁰ Chi phí sản xuất của NVIDIA khoảng $3,320 mỗi H100—khoảng cách giữa chi phí sản xuất và giá bán phản ánh biên lợi nhuận do nhu cầu thúc đẩy mới chỉ gần đây bắt đầu giảm bớt.
Giá thuê GPU cloud đã ổn định sau những đợt giảm đáng kể. Các instance H100 SXM dao động từ $1.49/giờ (Hyperbolic) đến $6.98/giờ (Azure), với hầu hết nhà cung cấp tập trung quanh $2.85-$3.50/giờ sau khi giảm 64-75% từ giá đỉnh.¹¹ Công suất đặt trước giảm giá hơn nữa—Lambda Labs cung cấp $1.85/giờ và Hyperstack bắt đầu từ $1.90/giờ với cam kết.
Chi phí điện và làm mát cộng thêm vào chi phí phần cứng. Mỗi H100 tiêu thụ lên đến 700W khi hoạt động tải cao. Các cụm multi-GPU đòi hỏi đơn vị phân phối điện chuyên dụng có thể tốn $10,000-$50,000 cho nâng cấp cơ sở.¹² Hạ tầng làm mát chất lỏng hoặc hệ thống HVAC nâng cao thêm $15,000-$100,000 tùy quy mô. Những chi phí này được phân bổ theo giờ GPU nhưng tác động đáng kể đến kinh tế sở hữu tổng thể.
Chi phí vận hành lấp đầy khoảng cách giữa thuê phần cứng và chi phí thực tế. Tính cả làm mát, cơ sở và bảo trì thêm khoảng $2-7 mỗi giờ vào giá thuê GPU thô, đưa chi phí vận hành thực sự của 8×H100 lên $8-$15/giờ khi được phân bổ đúng cách.¹³ Các tổ chức so sánh thuê cloud với giá API phải tính cả những chi phí ẩn này để có so sánh hợp lệ.
Phương trình sử dụng quyết định tính khả thi
Tỷ lệ sử dụng GPU quyết định liệu suy luận tự vận hành có hợp lý về kinh tế hay không. Trả tiền cho GPU chạy ở mức tải 10% biến $0.013 cho mỗi nghìn token thành $0.13—đắt hơn cả API cao cấp.¹⁴
Phân tích hòa vốn phụ thuộc vào kích thước mô hình và mục tiêu sử dụng. Vận hành mô hình 7B đòi hỏi khoảng 50% sử dụng để chi phí thấp hơn GPT-3.5 Turbo.¹⁵ Mô hình 13B đạt điểm cân bằng chi phí với GPT-4-turbo chỉ ở mức sử dụng 10% vì phí bảo hiểm năng lực của mô hình lớn hơn biện minh cho đầu tư hạ tầng cao hơn. Nhận định quan trọng: mô hình lớn hơn hòa vốn ở mức sử dụng thấp hơn vì chúng thay thế các lựa chọn API đắt tiền hơn.
Mẫu lưu lượng quyết định mức sử dụng có thể đạt được. Các tổ chức có khối lượng công việc ổn định, dự đoán được đạt mức sử dụng cao hơn những tổ chức có nhu cầu không đều. Các ứng dụng hướng người tiêu dùng với chu kỳ lưu lượng hàng ngày lãng phí công suất GPU trong giờ thấp điểm trừ khi khối lượng công việc có thể được chuyển đổi hoặc hạ tầng được mở rộng động.
Ngưỡng khối lượng yêu cầu thiết lập quy mô khả thi tối thiểu. Phân tích cho thấy cần hơn 8,000 cuộc hội thoại mỗi ngày trước khi hạ tầng tự vận hành có chi phí thấp hơn các giải pháp được quản lý.¹⁶ Dưới ngưỡng này, sự phức tạp vận hành và chi phí cố định của tự vận hành vượt quá tiết kiệm tiềm năng.
Cơ hội xử lý hàng loạt cải thiện kinh tế sử dụng. Các tổ chức có khối lượng công việc có thể hoãn—phân tích offline, nhúng hàng loạt, xử lý tập dữ liệu—có thể tổng hợp nhu cầu vào các khung thời gian sử dụng cao, cải thiện hiệu quả sử dụng ngay cả với lưu lượng thời gian thực biến động. Kết hợp khối lượng công việc thời gian thực và hàng loạt trên hạ tầng chung tối ưu hiệu quả vốn.
Phân tích cấu trúc chi phí cho triển khai sản xuất
Chi phí suy luận sản xuất phân tách thành các thành phần mà tối ưu hóa có thể giải quyết riêng lẻ.
Tải mô hình và bộ nhớ tiêu thụ tài nguyên cố định bất kể lưu lượng. Một mô hình 70B tham số ở FP16 đòi hỏi khoảng 140GB bộ nhớ GPU—vượt quá dung lượng GPU đơn và bắt buộc cấu hình multi-GPU.¹⁷ Chi phí bộ nhớ tỷ lệ với kích thước mô hình, không phải mức sử dụng, tạo ra ngưỡng hạ tầng tối thiểu bất kể khối lượng lưu lượng.
Tính toán cho mỗi token thúc đẩy chi phí biên trong suy luận. Tính toán forward pass tỷ lệ với kiến trúc mô hình—đặc biệt là cơ chế attention cho ngữ cảnh dài. Chi phí tính toán giảm với batching vì các phép toán ma trận trở nên hiệu quả hơn ở kích thước batch lớn hơn, phân bổ overhead cho nhiều token hơn.
Bộ nhớ KV cache tăng theo độ dài ngữ cảnh và số yêu cầu đồng thời. Mỗi yêu cầu hoạt động duy trì các cache key-value tiêu thụ bộ nhớ tỷ lệ với độ dài ngữ cảnh. Các ứng dụng ngữ cảnh dài đối mặt với áp lực bộ nhớ giới hạn số yêu cầu đồng thời, giảm throughput và tăng chi phí mỗi token. Quản lý KV cache là mục tiêu tối ưu chính.
I/O mạng và lưu trữ tác động đến triển khai multi-GPU và phân tán. Giao tiếp liên GPU cho tensor parallelism, tải trọng số mô hình từ lưu trữ, và truyền kết quả đều tiêu thụ tài nguyên. Mạng băng thông cao (NVLink, InfiniBand) giảm nút thắt I/O nhưng tăng đầu tư hạ tầng.
Chi phí vận hành bao gồm giám sát, ghi log, bảo mật và quản lý. Các hệ thống sản xuất đòi hỏi hạ tầng quan sát, nhân sự trực và nỗ lực tối ưu liên tục. Các tổ chức thường đánh giá thấp những chi phí "mềm" này khi so sánh tự vận hành với các lựa chọn API.
Các kỹ thuật tối ưu hóa biến đổi kinh tế
Các tối ưu kỹ thuật có thể giảm chi phí suy luận 60-70% hoặc hơn, biến kinh tế biên thành lợi thế bền vững.¹⁸
Lượng tử hóa giảm độ chính xác của trọng số mô hình từ floating point 32-bit xuống biểu diễn 8-bit hoặc 4-bit. Kỹ thuật này thu nhỏ kích thước mô hình 4-8 lần trong khi duy trì độ chính xác chấp nhận được.¹⁹ Lượng tử hóa 8-bit giảm sử dụng bộ nhớ 50% với khoảng 1% mất mát độ chính xác. Lượng tử hóa 4-bit đạt giảm kích thước 75% trong khi duy trì hiệu năng cạnh tranh cho nhiều ứng dụng. Hỗ trợ FP4 của GPU Blackwell cho phép tăng hiệu năng 4 lần chỉ từ lượng tử hóa.
Batching liên tục nhóm các yêu cầu động thay vì chờ hoàn thành batch cố định. Batching truyền thống chờ chuỗi dài nhất hoàn thành trước khi xử lý yêu cầu mới. Batching liên tục loại bỏ các chuỗi hoàn thành ngay lập tức và bắt đầu yêu cầu mới trong khi các yêu cầu khác vẫn đang xử lý.²⁰ Kỹ thuật này cải thiện đáng kể việc sử dụng GPU cho khối lượng công việc có độ dài chuỗi biến động—chính xác là mẫu mà hầu hết các triển khai sản xuất thể hiện.
Giải mã suy đoán sử dụng một mô hình "nháp" nhỏ để dự đoán nhiều token mà mô hình "xác minh" lớn hơn kiểm tra song song.²¹ Khi dự đoán đúng, nhiều token được tạo ra mỗi lần forward pass thay vì một token tiêu chuẩn. Kỹ thuật này giảm độ trễ 2-3 lần cho các ứng dụng mà mô hình nhỏ có thể dự đoán chính xác đầu ra của mô hình lớn hơn—đặc biệt hiệu quả cho các lĩnh vực giới hạn hoặc đầu ra có cấu trúc.
Tối ưu KV cache bao gồm PagedAttention quản lý bộ nhớ cache như bộ nhớ ảo, giảm phân mảnh và cho phép đồng thời cao hơn.²² Các kỹ thuật nén cache giảm thêm dung lượng bộ nhớ. Prefix caching tránh tính toán lại khi các yêu cầu chia sẻ tiền tố chung—có giá trị cho các ứng dụng có prompt có cấu trúc hoặc hướng dẫn hệ thống.
Chưng cất mô hình tạo ra các mô hình nhỏ hơn xấp xỉ hành vi mô hình lớn hơn cho các lĩnh vực cụ thể. Một mô hình chưng cất 7B tương đương hiệu năng GPT-4 cho các tác vụ mục tiêu chạy với một phần nhỏ chi phí hạ tầng trong khi duy trì chất lượng liên quan đến ứng dụng.²³ Chưng cất đòi hỏi đầu tư ban đầu vào huấn luyện nhưng tạo ra tiết kiệm suy luận liên tục.
Kết hợp, các kỹ thuật này cộng hưởng. Một tổ chức áp dụng lượng tử hóa (4x), batching liên tục (2x), và giải mã suy đoán (2x) có thể đạt giảm chi phí hiệu quả 16 lần so với triển khai đơn giản—biến kinh tế có vẻ biên thành lợi thế đáng kể.
Khung quyết định API so với tự vận hành
Quyết định xây dựng hay mua phụ thuộc vào các yếu tố ngoài so sánh chi phí đơn giản.
Chọn suy luận API khi: - Lưu lượng không đều hoặc không thể dự đoán - Khối lượng dưới 8,000 cuộc hội thoại mỗi ngày - Năng lực kỹ thuật hạn chế - Lặp nhanh trên lựa chọn mô hình có giá trị - Yêu cầu tuân thủ được đáp ứng bởi chứng nhận nhà cung cấp - Yêu cầu độ trễ phù hợp với SLA của nhà cung cấp
Chọn tự vận hành khi: - Lưu lượng ổn định và khối lượng cao - Sử dụng GPU có thể duy trì trên 50% - Chủ quyền dữ liệu ngăn cản sử dụng API cloud - Mô hình tùy chỉnh đòi hỏi phục vụ chuyên biệt - Yêu cầu độ trễ vượt quá khả năng nhà cung cấp - Tối ưu chi phí biện minh cho đầu tư kỹ thuật
Cách tiếp cận lai thường chứng minh là tối ưu. Các tổ chức định tuyến cơ sở
[Nội dung bị cắt ngắn cho bản dịch]