Hạ tầng AI agent: những gì hệ thống tự động yêu cầu
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: Triển khai AI agent tăng mức tiêu thụ token lên 20-30 lần so với AI tạo sinh tiêu chuẩn. Gartner dự đoán 40% dự án agent sẽ bị hủy bỏ vào năm 2027 do vượt chi phí hạ tầng. Kiến trúc bộ nhớ đang trở nên quan trọng—agent cần lưu trữ dữ liệu 3-5 năm để duy trì ngữ cảnh liên tục. LLM gateway và MCP (Model Context Protocol) đang trở thành tiêu chuẩn cho việc điều phối đa mô hình trên các hệ thống doanh nghiệp.
Gần sáu trong mười doanh nghiệp đang tích cực theo đuổi AI agent vào năm 2025, triển khai các hệ thống tự động điều phối quy trình, gọi các mô hình khác và đưa ra quyết định theo thời gian thực.¹ Gartner dự đoán 33% ứng dụng phần mềm doanh nghiệp sẽ tích hợp AI agent vào năm 2028, tăng từ 0% năm 2024.² Với AI agent, mức tiêu thụ token tăng 20 đến 30 lần so với AI tạo sinh tiêu chuẩn, đòi hỏi sức mạnh tính toán tăng tương ứng.³ Hạ tầng hỗ trợ chatbot và ứng dụng suy luận đơn lẻ không thể mở rộng để hỗ trợ các agent tự động hoạt động liên tục trên các hệ thống doanh nghiệp.
Sự chuyển đổi từ tương tác prompt-response sang hành động tự động tạo ra các yêu cầu hạ tầng khác biệt về cơ bản. Agent cần bộ nhớ liên tục qua các cuộc hội thoại, điện toán không đồng nhất cho điều phối và suy luận, và mạng độ trễ thấp cho giao tiếp giữa các agent. Các tổ chức triển khai agent mà không có hạ tầng được xây dựng chuyên biệt sẽ đối mặt với chi phí leo thang, tắc nghẽn hiệu suất và lỗi độ tin cậy khi khối lượng công việc mở rộng.
Yêu cầu tính toán tăng gấp bội
AI agent tạo ra độ phức tạp bằng cách yêu cầu tài nguyên điện toán không đồng nhất.⁴ CPU xử lý điều phối trong khi GPU xử lý suy luận, thường với các mẫu mở rộng và đường cong sử dụng khác nhau.⁵ Hồ sơ khối lượng công việc biến đổi khác với các mẫu có thể dự đoán của huấn luyện batch hoặc suy luận đồng bộ.
Sự nhân lên của token tạo ra nhu cầu tính toán đáng kể. AI tạo sinh tiêu chuẩn xử lý token đầu vào và trả về token đầu ra trong một lần trao đổi.⁶ AI agent thực hiện lý luận đa bước, gọi công cụ và phối hợp với các agent khác, tạo ra nhiều hơn 20 đến 30 lần token trên mỗi tương tác người dùng.⁷ Chi phí tính toán tỷ lệ thuận với khối lượng token.
Chạy các AI agent tinh vi đòi hỏi tài nguyên tính toán đáng kể, đặc biệt cho các nhiệm vụ lý luận phức tạp.⁸ Chi phí gọi API LLM, lưu trữ cơ sở dữ liệu vector và hạ tầng đám mây leo thang nhanh chóng cho các ứng dụng khối lượng lớn.⁹ Các tổ chức phải lập ngân sách cho chi phí tính toán cao hơn đáng kể so với các triển khai AI tạo sinh hiện tại của họ.
Dự báo xuất xưởng GPU từ các nhà cung cấp lớn tăng hơn năm lần cho năm 2025 và 2026 khi các nhà cung cấp cố gắng đáp ứng nhu cầu tính toán leo thang.¹⁰ AI agent góp phần vào nhu cầu này thông qua các cuộc gọi suy luận liên tục, phối hợp khác với các mẫu bùng nổ của khối lượng công việc huấn luyện.¹¹
Bộ nhớ trở thành ưu tiên kiến trúc
AI agent yêu cầu bộ nhớ liên tục, dài hạn để giữ lại các cuộc hội thoại trước, với yêu cầu lưu trữ sẽ rất nặng và lưu giữ dữ liệu kéo dài từ ba đến năm năm.¹² Nhu cầu lưu trữ vượt quá AI tạo sinh với biên độ đáng kể.¹³
AI agent dựa vào cả bộ nhớ ngắn hạn và dài hạn để hoạt động hiệu quả.¹⁴ Bộ nhớ ngắn hạn hoạt động như RAM máy tính, giữ các chi tiết liên quan cho các nhiệm vụ hoặc cuộc hội thoại đang diễn ra.¹⁵ Bộ nhớ làm việc này tồn tại ngắn trong một luồng hội thoại và bị giới hạn bởi cửa sổ ngữ cảnh LLM.¹⁶
Bộ nhớ dài hạn hoạt động như ổ cứng, lưu trữ lượng lớn thông tin để truy cập sau.¹⁷ Thông tin này tồn tại qua nhiều lần chạy nhiệm vụ hoặc cuộc hội thoại, cho phép agent học từ phản hồi và thích ứng với sở thích người dùng.¹⁸ Yêu cầu lưu trữ liên tục tạo ra nhu cầu hạ tầng lưu trữ mà các ứng dụng suy luận đơn lẻ không có.
Hạ tầng bộ nhớ cho hệ thống agent yêu cầu kiến trúc phân tầng: bộ nhớ cache tạm thời cho bộ nhớ làm việc ngắn hạn, lưu trữ nóng cho các episode đang hoạt động, và lưu trữ lạnh cho lưu trữ.¹⁹ Đặt cùng vị trí điện toán và dữ liệu giảm chi phí egress và độ trễ.²⁰ Mẫu kiến trúc này khác với thiết kế không trạng thái của hầu hết các dịch vụ suy luận.
Redis và các cơ sở dữ liệu in-memory tương tự cung cấp bộ nhớ ngắn hạn mà agent cần cho ngữ cảnh trong phiên.²¹ Cơ sở dữ liệu vector lưu trữ bộ nhớ dài hạn cho truy xuất ngữ nghĩa. Sự kết hợp tạo ra một stack bộ nhớ phải được thiết kế chuyên biệt cho khối lượng công việc agent.
Kiến trúc phân tách nổi lên
Một sự tiến hóa kiến trúc đầy hứa hẹn liên quan đến việc phân tách tài nguyên bộ nhớ và điện toán đặc biệt cho khối lượng công việc suy luận.²² Bộ nhớ trạng thái per-agent cung cấp tài nguyên động cho ngữ cảnh, các bước lý luận và tương tác của mỗi agent.²³ Xử lý trọng số mô hình và trạng thái agent như các danh mục bộ nhớ riêng biệt cho phép cung cấp hạ tầng thông minh hơn.²⁴
Các mô hình phân bổ tài nguyên hiện tại không phù hợp tốt với nhu cầu bộ nhớ biến đổi của AI, yêu cầu điện toán chuyên biệt và các mẫu sử dụng bùng nổ.²⁵ Các phương pháp chuyên dụng gặp khó khăn với việc lập kế hoạch năng lực cho các mẫu lý luận không thể dự đoán.²⁶ Môi trường container hóa đối mặt với cấu hình GPU và bộ nhớ phức tạp.²⁷ Các mô hình serverless tạo ra sự gián đoạn nhận thức từ cold start và giới hạn thực thi.²⁸
Lưới AI agent đại diện cho một mô hình kiến trúc có thể kết hợp, phân tán và không phụ thuộc nhà cung cấp.²⁹ Nhiều agent lý luận, cộng tác và hành động tự động trên các hệ thống thông qua lớp hạ tầng này.³⁰ Kiến trúc này khác biệt cơ bản với hạ tầng tĩnh, tập trung vào LLM được xây dựng cho suy luận mô hình đơn.
Hạ tầng AI hybrid và multi-cloud tận dụng tính đàn hồi đám mây công cộng với điện toán, lưu trữ và mạng tối ưu hóa AI mở rộng động theo nhu cầu.³¹ Hạ tầng AI edge giải quyết các yêu cầu độ trễ và quyền riêng tư cho các agent hoạt động trên thiết bị người dùng hoặc trong môi trường được kiểm soát.³²
Thách thức tích hợp doanh nghiệp
Nhiều công ty vận hành trên hạ tầng phức tạp, hàng thập kỷ tuổi không được thiết kế để hỗ trợ các AI agent tự động.³³ Tích hợp với công nghệ kế thừa có thể dẫn đến hạ tầng mong manh, đắt đỏ và chậm.³⁴ Các công ty nên sử dụng AI như một lớp middleware thông minh dịch giữa giao diện agent hiện đại và hệ thống kế thừa.³⁵
LLM gateway hoạt động như middleware giữa các ứng dụng AI và nhà cung cấp mô hình nền tảng, đóng vai trò như một điểm nhập thống nhất.³⁶ Các gateway được kiến trúc tốt trừu tượng hóa độ phức tạp, chuẩn hóa quyền truy cập vào nhiều mô hình và MCP server, thực thi quản trị và tối ưu hóa hiệu quả vận hành.³⁷
Model context protocol cung cấp các tiêu chuẩn tương tác phá vỡ các silo khi agent triển khai trên toàn bộ stack công nghệ.³⁸ Các tiêu chuẩn nhất quán cho phép tích hợp không ma sát nắm bắt toàn bộ giá trị của AI agent.³⁹ Các tổ chức không có tiêu chuẩn tương tác sẽ gặp khó khăn trong việc mở rộng agent vượt ra ngoài các trường hợp sử dụng biệt lập.
Hạ tầng AI phân tán với mạng suy luận mạnh mẽ cho phép agent hoạt động nơi dữ liệu cư trú.⁴⁰ Lưu trữ dữ liệu, điểm tương tác người dùng và vị trí hành động đều phải được phân tán và kết nối để tương tác thời gian thực liền mạch.⁴¹ Các yêu cầu phân tán vượt quá các dịch vụ suy luận tập trung.
Yêu cầu quản trị và bảo mật
Các tổ chức phải xác định và nhúng khả năng quan sát, bảo mật, quản trị và kiểm soát cung cấp khả năng truy vết, trách nhiệm giải trình, phát hiện bất thường và kỷ luật chi phí.⁴² Để AI agent mở rộng an toàn, các rào chắn này phải được xây dựng từ đầu thay vì bổ sung sau.⁴³
Các khái niệm AI agent bảo mật theo thiết kế yêu cầu quyền sở hữu rõ ràng, quyền truy cập tối thiểu, ngưỡng tự chủ rõ ràng và ranh giới đạo đức cứng.⁴⁴ Dịch các mục tiêu kinh doanh thành các ràng buộc này đòi hỏi công việc kiến trúc có chủ đích mà nhiều tổ chức chưa thực hiện.
Khối lượng công việc AI đòi hỏi khả năng mở rộng và đàn hồi lớn hơn để xử lý bản chất xác suất của các hệ thống agent.⁴⁵ Hạ tầng phải hỗ trợ cung cấp nhanh, phần cứng chuyên biệt và lưu lượng mạng độ trễ thấp, thông lượng cao cho giao tiếp giữa các agent.⁴⁶
Phương pháp kiến trúc ba tầng tiến triển qua các tầng Foundation, Workflow và Autonomous nơi sự tin tưởng, quản trị và minh bạch đi trước tự chủ.⁴⁷ Các tổ chức bỏ qua công việc nền tảng sẽ gặp khó khăn với các yêu cầu độ tin cậy và bảo mật của các agent tự động.
Dự báo quy mô và lập kế hoạch
Các dự báo dự đoán AI agent sẽ mở rộng từ 50 đến 100 tỷ vào năm 2026 lên tiềm năng 2 đến 5 nghìn tỷ vào năm 2036.⁴⁸ Dự báo tương ứng với 50 đến 100 lần số thiết bị được kết nối hiện tại.⁴⁹ Quy mô tạo ra các yêu cầu hạ tầng vượt quá bất kỳ kiến trúc hiện tại nào hỗ trợ.
Nhu cầu năng lượng tăng mạnh với sự phổ biến của agent. Mức sử dụng năng lượng GPU gần như tăng gấp đôi từ khoảng 400 watt năm 2018 lên gần 750 watt ngày nay và có thể vượt quá 1.200 watt vào năm 2035.⁵⁰ Quỹ đạo năng lượng làm phức tạp thêm các thách thức hạ tầng ngoài điện toán và bộ nhớ.
Gartner dự đoán 40% triển khai AI agent sẽ bị hủy bỏ vào năm 2027 do chi phí tăng, giá trị không rõ ràng hoặc kiểm soát rủi ro kém.⁵¹ Tỷ lệ hủy bỏ cho thấy các thất bại lập kế hoạch hạ tầng sẽ chấm dứt các sáng kiến có triển vọng khác. Các tổ chức xây dựng hạ tầng phù hợp từ đầu cải thiện cơ hội đạt được sản xuất thành công.
Các AI agent hiệu quả có thể tăng tốc quy trình kinh doanh từ 30% đến 50%.⁵² Những tiến bộ gần đây về sức mạnh tính toán và chip tối ưu hóa AI giảm lỗi của con người và cắt giảm thời gian làm việc giá trị thấp của nhân viên từ 25% đến 40%.⁵³ Các lợi ích năng suất biện minh cho đầu tư hạ tầng cho các tổ chức thực hiện hiệu quả.
Khuyến nghị lập kế hoạch hạ tầng
Các tổ chức lập kế hoạch triển khai agent nên đánh giá các yêu cầu hạ tầng trước khi chọn các trường hợp sử dụng. Hạ tầng có khả năng hỗ trợ thí điểm có thể không mở rộng cho khối lượng công việc sản xuất. Xây dựng để mở rộng từ đầu tránh các di chuyển đắt đỏ.
Kiến trúc bộ nhớ đòi hỏi sự chú ý đặc biệt. Các agent không thể duy trì trạng thái qua các phiên mất đi phần lớn giá trị của chúng. Lập kế hoạch lưu giữ dữ liệu nhiều năm ảnh hưởng đến mua sắm lưu trữ và quản trị dữ liệu.
Ngân sách điện toán nên dự đoán mức tiêu thụ token gấp 20 đến 30 lần so với khối lượng công việc chatbot tương đương. Hệ số nhân có vẻ cao nhưng phản ánh lý luận đa bước phân biệt agent với suy luận một lượt.
Kiến trúc tích hợp quyết định liệu agent có thể truy cập dữ liệu doanh nghiệp và thực hiện hành động có ý nghĩa. Các tổ chức nên lập bản đồ yêu cầu tích hợp trước khi cam kết với các nền tảng agent. Tích hợp hệ thống kế thừa thường chi phối tiến độ triển khai.
Hạ tầng quản trị không thể hoãn lại. Các agent hoạt động tự động trên các hệ thống doanh nghiệp yêu cầu khả năng quan sát, kiểm soát truy cập và đường kiểm toán phải được thiết kế vào kiến trúc thay vì thêm vào sau.
Hóa đơn hạ tầng cho AI agent đang đến hạn.⁵⁴ Các tổ chức lập kế hoạch chủ động sẽ triển khai agent thành công. Những tổ chức đánh giá thấp các yêu cầu sẽ gia nhập 40% được dự đoán hủy bỏ triển khai trước khi nhận ra giá trị.
Điểm chính
Cho các kiến trúc sư hạ tầng: - AI agent tăng mức tiêu thụ token 20-30 lần so với AI tạo sinh tiêu chuẩn; lập ngân sách chi phí điện toán cao hơn tương ứng so với triển khai chatbot - Kiến trúc bộ nhớ yêu cầu ba tầng: bộ nhớ cache tạm thời (ngắn hạn), lưu trữ nóng (episode đang hoạt động), lưu trữ lạnh (lưu giữ 3-5 năm) - Kiến trúc phân tách đang nổi lên: tách trọng số mô hình khỏi bộ nhớ trạng thái per-agent để cung cấp tài nguyên thông minh
Cho các kỹ sư nền tảng: - Redis và các cơ sở dữ liệu in-memory tương tự cung cấp bộ nhớ ngắn hạn; cơ sở dữ liệu vector xử lý truy xuất ngữ nghĩa dài hạn - LLM gateway hoạt động như middleware giữa ứng dụng và mô hình nền tảng: trừu tượng hóa độ phức tạp, thực thi quản trị, tối ưu hóa hiệu quả - Model Context Protocol (MCP)
[Nội dung bị cắt bớt cho dịch thuật]