CoWoS và Đóng gói Tiên tiến: Kiến trúc Chip Định hình Thiết kế Trung tâm Dữ liệu
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12/2025: TSMC trình diễn công nghệ làm mát chất lỏng trực tiếp lên silicon trên nền tảng CoWoS, đạt điện trở nhiệt 0,055°C/W ở mức TDP 2,6kW+ trên interposer 3.300mm². NVIDIA đảm bảo hơn 70% công suất CoWoS-L của TSMC cho năm 2025. Sản lượng GPU Blackwell tăng hơn 20% mỗi quý, hướng tới hơn 2 triệu đơn vị mỗi năm. Đóng gói tiên tiến đang trở thành yếu tố hạn chế chính trong nguồn cung bộ tăng tốc AI.
TSMC đã trình diễn công nghệ Làm mát Chất lỏng Trực tiếp lên Silicon tích hợp trên nền tảng CoWoS tại hội nghị IEEE ECTC 2025, đạt điện trở nhiệt từ mối nối đến môi trường là 0,055 °C/W ở lưu lượng chất làm mát 40 ml/s—tốt hơn gần 15% so với làm mát chất lỏng có nắp sử dụng vật liệu giao diện nhiệt.[^1] Buổi trình diễn đã xác nhận khả năng hoạt động bền vững ở mức TDP trên 2,6 kW trên interposer khổng lồ 3.300 mm² hỗ trợ nhiều die logic và chồng HBM. Công nghệ đóng gói tiên tiến đã phát triển từ một vấn đề của ngành sản xuất bán dẫn thành yếu tố chính thúc đẩy kiến trúc nguồn điện và làm mát của trung tâm dữ liệu.
NVIDIA đã đảm bảo hơn 70% công suất đóng gói tiên tiến CoWoS-L của TSMC cho năm 2025, với sản lượng GPU kiến trúc Blackwell tăng hơn 20% mỗi quý, hướng tới sản lượng hàng năm vượt quá 2 triệu đơn vị.[^2] Việc phân bổ công suất phản ánh cách đóng gói tiên tiến đã trở thành yếu tố hạn chế quan trọng trong nguồn cung bộ tăng tốc AI. Các nhà vận hành trung tâm dữ liệu lập kế hoạch đầu tư cơ sở hạ tầng cần hiểu công nghệ đóng gói ảnh hưởng như thế nào đến các hệ thống họ triển khai, từ yêu cầu cung cấp điện, nhu cầu làm mát đến các yếu tố hình thức vật lý.
Hiểu về đóng gói tiên tiến
Đóng gói tiên tiến tích hợp nhiều die silicon vào các gói thống nhất hoạt động như chip đơn lẻ, cho phép các khả năng không thể đạt được với thiết kế đơn khối.
Giải thích công nghệ CoWoS
CoWoS (Chip-on-Wafer-on-Substrate - Chip trên Wafer trên Substrate) kết hợp nhiều die trên một interposer silicon, sau đó liên kết với substrate gói.[^3] Interposer silicon có các kết nối kim loại mật độ cao và through-silicon vias (TSV), cung cấp giao tiếp dữ liệu băng thông cực cao, độ trễ thấp giữa các die. Kết quả mang lại hiệu quả năng lượng, hiệu suất nhiệt và diện tích nhỏ gọn được cải thiện, rất quan trọng cho các khối lượng công việc AI, HPC và đám mây.
Không giống như các gói chip đơn truyền thống, CoWoS cho phép tích hợp không đồng nhất, kết hợp SoC, GPU và chồng bộ nhớ HBM trong một gói duy nhất.[^3] Việc tích hợp này loại bỏ các hình phạt về băng thông và độ trễ khi giao tiếp qua ranh giới gói. Băng thông bộ nhớ vốn giới hạn hiệu suất AI tăng đáng kể khi các chồng HBM nằm cách die tính toán vài milimet thay vì qua PCB.
Các biến thể CoWoS
NVIDIA đã áp dụng đóng gói tiên tiến CoWoS-L, tích hợp lớp phân phối lại (RDL) với interposer silicon một phần (LSI).[^2] CoWoS-L tăng cường kích thước và diện tích chip bằng cách tăng mật độ transistor, cho phép xếp chồng nhiều bộ nhớ băng thông cao hơn. So với công nghệ CoWoS-S và CoWoS-R, CoWoS-L cung cấp hiệu suất vượt trội, tỷ lệ sản phẩm đạt yêu cầu cao hơn và hiệu quả chi phí tốt hơn.
CoWoS-S (interposer silicon) sử dụng interposer silicon đầy đủ bao phủ tất cả các die. Phương pháp này cung cấp bước kết nối mịn nhất nhưng hạn chế kích thước gói theo giới hạn sản xuất interposer silicon. Các gói CoWoS-S hiện tại đạt khoảng 2,5 kích thước reticle.
CoWoS-R (interposer RDL) thay thế interposer silicon bằng lớp phân phối lại hữu cơ, giảm chi phí nhưng đánh đổi mật độ kết nối. Công nghệ này phù hợp với các ứng dụng yêu cầu gói lớn, nơi interposer silicon đầy đủ trở nên đắt đỏ một cách không hợp lý.
Các công nghệ cạnh tranh
EMIB (Embedded Multi-die Interconnect Bridge) của Intel kết nối các chiplet sử dụng các cầu silicon nhỏ được nhúng trực tiếp vào substrate gói, loại bỏ nhu cầu về interposer silicon lớn.[^4] Phương pháp này giảm cả chi phí và độ phức tạp nhiệt so với các giải pháp interposer đầy đủ. EMIB phù hợp với các thiết kế mà các die giao tiếp theo cặp thay vì yêu cầu kết nối mesh đầy đủ.
Công nghệ Foveros của Intel xếp chồng các die theo chiều dọc sử dụng through-silicon vias hoặc liên kết đồng trực tiếp.[^4] Việc xếp chồng 3D cung cấp mật độ kết nối cao và tích hợp node không đồng nhất với chi phí là các yêu cầu về nhiệt và tỷ lệ sản phẩm đạt yêu cầu nghiêm ngặt hơn. Quản lý nhiệt trở nên đặc biệt khó khăn khi các die tạo nhiệt xếp chồng theo chiều dọc.
CoWoS-L của TSMC vẫn là lựa chọn chính cho GPU AI hiệu suất cao và các bộ tăng tốc nặng về HBM bất chấp các giải pháp thay thế cạnh tranh.[^4] Sự trưởng thành trong sản xuất và hiệu suất đã được chứng minh của công nghệ ở mức công suất bộ tăng tốc AI khiến nó trở thành lựa chọn mặc định cho các thiết kế tiên tiến.
Các tác động về nhiệt
Đóng gói tiên tiến tập trung sinh nhiệt theo cách thách thức các phương pháp làm mát truyền thống.
Thách thức về mật độ công suất
Một gói CoWoS 3.300 mm² tản nhiệt 2,6+ kW đại diện cho mật độ công suất yêu cầu làm mát tinh vi vượt quá khả năng làm mát bằng không khí.[^1] Công suất tập trung trong các die tính toán chiếm một phần nhỏ của tổng diện tích gói, tạo ra các điểm nóng nhiệt mà mật độ công suất trung bình của gói không thể hiện đúng.
Các chồng HBM bao quanh các die tính toán tạo ra nhiệt bổ sung trong khi yêu cầu kiểm soát nhiệt độ để duy trì độ tin cậy của bộ nhớ. Thông số kỹ thuật HBM giới hạn nhiệt độ hoạt động nghiêm ngặt hơn so với mức các die logic có thể chịu được. Thiết kế làm mát phải giải quyết cả nhiệt độ đỉnh của die logic và các yêu cầu nhiệt phân tán của HBM.
Sự tiến triển từ GPU 300W đến thế hệ hiện tại 700W+ và các gói thế hệ tiếp theo dự kiến 1000W+ thúc đẩy những thay đổi cơ bản trong kiến trúc nhiệt của trung tâm dữ liệu. Các phương pháp làm mát bằng không khí xử lý được các thế hệ trước không thể mở rộng đến mức công suất hiện tại mà không có hình phạt về tiếng ồn hoặc năng lượng không thể chấp nhận được.
Tích hợp làm mát chất lỏng trực tiếp
Công nghệ Làm mát Chất lỏng Trực tiếp lên Silicon của TSMC nhúng các kênh vi lỏng trực tiếp vào cấu trúc silicon, bỏ qua vật liệu giao diện nhiệt để đạt trở kháng nhiệt gần như bằng không.[^1] Bộ làm mát vi mô tích hợp Silicon liên kết nhiệt hạch với mặt sau của chip, tạo ra tiếp xúc nhiệt mật thiết mà các phương pháp dựa trên TIM không thể sánh được.
Công nghệ này cho phép hoạt động bền vững ở mức công suất sẽ áp đảo các gói có nắp với tấm lạnh bên ngoài. Các trung tâm dữ liệu triển khai bộ tăng tốc AI thế hệ tiếp theo có thể yêu cầu mức độ tích hợp nhiệt này thay vì cải tạo làm mát hiện có cho tải công suất cao hơn.
Tích hợp ở cấp gói chuyển trách nhiệm làm mát về phía các nhà sản xuất bán dẫn và nhà cung cấp hệ thống thay vì các nhà vận hành trung tâm dữ liệu. Các tổ chức chỉ định cơ sở hạ tầng AI nên hiểu hệ thống họ chọn sử dụng giải pháp nhiệt nào và những giải pháp đó áp đặt yêu cầu cơ sở vật chất gì.
Yêu cầu làm mát cơ sở vật chất
Làm mát chất lỏng ở cấp chip vẫn yêu cầu tản nhiệt ở cấp cơ sở vật chất. Tải nhiệt di chuyển từ chip đến vòng chất làm mát đến cơ sở hạ tầng làm mát trung tâm dữ liệu. Thiết kế cơ sở vật chất phải đáp ứng phân phối chất làm mát, bộ trao đổi nhiệt và tản nhiệt cuối cùng bất kể chip kết hợp với chất làm mát hiệu quả như thế nào.
Các rack mật độ cao được kích hoạt bởi đóng gói tiên tiến có thể tập trung 100+ kW trong các vị trí rack đơn lẻ. Sự tập trung này tạo ra nhu cầu làm mát cục bộ mà các phương pháp dựa trên hàng hoặc phòng khó giải quyết. Bộ trao đổi nhiệt cửa sau, đơn vị làm mát trong hàng, hoặc cơ sở hạ tầng làm mát chất lỏng trực tiếp đến chip trở nên cần thiết.
Yêu cầu cung cấp và xử lý nước tăng lên với việc triển khai làm mát chất lỏng. Chất lượng chất làm mát ảnh hưởng đến cả hiệu suất nhiệt và tuổi thọ thiết bị. Các trung tâm dữ liệu phải hoặc cung cấp xử lý nước hoặc chỉ định hệ thống vòng kín giảm thiểu sự phụ thuộc vào chất lượng nước.
Các cân nhắc về cung cấp điện
Các gói tiên tiến yêu cầu hệ thống cung cấp điện phù hợp với nhu cầu dòng điện tăng lên và yêu cầu điều chỉnh điện áp chặt chẽ hơn.
Vị trí đặt bộ điều chỉnh điện áp
Việc cung cấp dòng điện cao đến các gói tiên tiến được hưởng lợi từ bộ điều chỉnh điện áp đặt gần gói. Khoảng cách ngắn giảm tổn thất điện trở và cải thiện phản ứng tức thời khi nhu cầu điện thay đổi nhanh chóng. Thiết kế bo mạch ngày càng đặt VRM ngay cạnh các gói GPU.
Mức dòng điện đạt hàng trăm ampere ở điện áp dưới 1V tạo ra các yêu cầu phân phối điện đầy thách thức. Số lớp PCB và trọng lượng đồng tăng để dẫn dòng điện mà không bị tổn thất quá mức hoặc tăng nhiệt độ. Độ phức tạp và chi phí thiết kế bo mạch tăng cùng với công suất gói.
Thiết kế mạng phân phối điện (PDN) ảnh hưởng đến cả hiệu quả trạng thái ổn định và độ ổn định tức thời. Các khối lượng công việc AI thể hiện các chuyển đổi công suất nhanh khi các tính toán batch bắt đầu và hoàn thành. PDN phải cung cấp các đợt dòng điện đột biến mà không có sụt áp gây ra lỗi.
Cơ sở hạ tầng điện của cơ sở vật chất
Cơ sở hạ tầng điện của trung tâm dữ liệu phải đáp ứng cả tăng tổng công suất và tăng mật độ công suất. Một rack yêu cầu 100 kW cần cơ sở hạ tầng điện mà ít cơ sở vật chất nào cung cấp theo mặc định. Công suất busway, định mức PDU và số lượng mạch nhánh đều yêu cầu xác nhận so với kế hoạch triển khai thực tế.
Hiệu quả năng lượng ở cấp cơ sở vật chất ảnh hưởng đáng kể đến tổng chi phí sở hữu. Các gói tiên tiến đạt hiệu suất tốt hơn trên mỗi watt giảm tải làm mát cùng với chi phí tính toán. Tuy nhiên, lợi ích chỉ được hiện thực hóa nếu cơ sở hạ tầng cơ sở vật chất hoạt động hiệu quả trong phạm vi công suất liên quan.
Hệ thống nguồn dự phòng đối mặt với những thách thức mới từ cơ sở hạ tầng AI mật độ cao. Công suất UPS và máy phát điện phải phù hợp với tải cơ sở vật chất đỉnh trong khi cung cấp thời gian chạy đủ cho tắt máy nhẹ nhàng. Chi phí vốn của nguồn dự phòng tỷ lệ với tải được bảo vệ, tăng đầu tư cơ sở hạ tầng.
Các yếu tố hình thức vật lý
Đóng gói tiên tiến ảnh hưởng đến các yếu tố hình thức vật lý trong toàn bộ hệ thống phân cấp.
Kích thước gói
Các ràng buộc về kích thước interposer giới hạn số lượng die và chồng HBM có thể đặt trong một gói duy nhất. Các gói CoWoS hiện tại trải dài nhiều kích thước reticle, tiếp cận giới hạn của thiết bị sản xuất. Tăng trưởng kích thước gói cho phép nhiều khả năng hơn trên mỗi gói nhưng thách thức thiết kế socket và bo mạch.
Chiều cao gói tăng với số lượng chồng HBM. Mỗi chồng HBM thêm chiều dọc mà thiết kế socket và tản nhiệt phải đáp ứng. Thiết kế hệ thống cân bằng số lượng gói so với các ràng buộc chiều cao đưa ra các đánh đổi khác nhau so với các thế hệ trước.
Các mẫu ball grid array (BGA) cho các gói tiên tiến bao gồm hàng nghìn kết nối cho nguồn, tín hiệu và đất. Thiết kế socket phải tiếp xúc đáng tin cậy với tất cả các kết nối trong khi cho phép tháo gói để bảo trì. Kỹ thuật cơ khí của socket số chân cao ảnh hưởng đến khả năng bảo trì hệ thống.
Thiết kế bo mạch và hệ thống
Thiết kế bo mạch chủ cho các gói tiên tiến dành diện tích đáng kể cho cung cấp điện, kênh bộ nhớ và kết nối tốc độ cao. Diện tích bo mạch cần thiết cho mỗi gói có thể giới hạn số lượng gói có thể đặt trên một bo mạch duy nhất. Thiết kế hệ thống chọn giữa ít gói lớn hơn hoặc nhiều gói nhỏ hơn dựa trên yêu cầu khối lượng công việc.
Các yếu tố hình thức máy chủ phát triển để đáp ứng yêu cầu gói tiên tiến. Các ràng buộc chiều cao trong các yếu tố hình thức 1U và 2U tiêu chuẩn xung đột với các giải pháp làm mát cho các gói công suất cao. Thiết kế máy chủ AI được xây dựng có mục đích ưu tiên hiệu suất nhiệt hơn mật độ rack.
Mật độ công suất rack tăng khi các gói trở nên có khả năng hơn trong các yếu tố hình thức không đổi. Các cơ sở vật chất được thiết kế cho 10-15 kW mỗi rack thấy cơ sở hạ tầng AI yêu cầu 50-100+ kW mỗi rack. Sự không khớp giữa cơ sở hạ tầng đã cài đặt và yêu cầu triển khai tạo ra các tình huống cải tạo tốn kém.
Các tác động đến chuỗi cung ứng
Các ràng buộc về công suất đóng gói tiên tiến ảnh hưởng đến tính khả dụng cơ sở hạ tầng AI và tầm nhìn lập kế hoạch.
Phân bổ công suất
TSMC có kế hoạch mở rộng tám cơ sở CoWoS trong ngắn hạn, bao gồm các cơ sở tại ChiaYi Science Park và các địa điểm Innolux đã mua lại.[^5] Các nhà cung cấp thiết bị bán dẫn xác nhận rằng TSMC và các đối thủ không phải TSMC bao gồm ASE, Amkor và UMC
[Nội dung bị cắt ngắn để dịch]