แพลตฟอร์ม NVIDIA Vera Rubin: ประสิทธิภาพ 8 เอกซาฟลอปส์และความต้องการโครงสร้างพื้นฐาน
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: Vera Rubin (2026) ให้ประสิทธิภาพ 8 EXAFLOPS—เทียบเท่าประสิทธิภาพรวมของรายชื่อ TOP500 ทั้งหมด ทรานซิสเตอร์ประมาณ 500 พันล้านตัวบน TSMC N2, HBM4 แบนด์วิดท์ 13TB/s, NVLink 6 แบบสองทิศทาง 5TB/s กำลังไฟ 600kW ต่อแร็ค, TDP 2,000W ต่อชิป Rubin Ultra (ครึ่งหลังปี 2027) พร้อม HBM4e หน่วยความจำ 365TB ข้าม NVL576 ต้องการการจ่ายไฟ 48V โดยตรงถึงชิป
พลังการประมวลผลแปดเอกซาฟลอปส์ฟังดูเป็นนามธรรม จนกว่าคุณจะตระหนักว่ามันเท่ากับประสิทธิภาพรวมของซูเปอร์คอมพิวเตอร์ทุกเครื่องในรายชื่อ TOP500 ของโลก บีบอัดลงในโครงสร้างพื้นฐานที่พอดีกับแถวเดียวในศูนย์ข้อมูล¹ แพลตฟอร์ม Vera Rubin ของ NVIDIA ซึ่งมีกำหนดใช้งานในปี 2026 สัญญาว่าจะให้ความสามารถนี้ผ่านความก้าวหน้าทางสถาปัตยกรรมอย่างสุดขั้วที่ทำให้ระบบที่ทรงพลังที่สุดในปัจจุบันดูล้าสมัย องค์กรที่วางแผนโครงสร้างพื้นฐานวันนี้ต้องคำนึงถึงระบบที่จะใช้พลังงานถึง 600 กิโลวัตต์ต่อแร็ค และต้องการเทคโนโลยีระบายความร้อนที่ท้าทายขีดจำกัดทางการค้า
แพลตฟอร์มนี้ได้ชื่อมาจากนักดาราศาสตร์ Vera Rubin ซึ่งการสังเกตสสารมืดของเธอได้ปฏิวัติจักรวาลวิทยา—เป็นการยกย่องที่เหมาะสมสำหรับสถาปัตยกรรมที่สัญญาว่าจะปฏิวัติความสามารถของ AI² Jensen Huang เปิดเผยสเปกที่ GTC 2025: ชิปที่ผลิตบนกระบวนการ 3 นาโนเมตรของ TSMC (N3P), หน่วยความจำ HBM4 ให้แบนด์วิดท์ถึง 13 เทราไบต์ต่อวินาที และ NVLink รุ่นที่หกรองรับการสื่อสาร GPU-to-GPU หลายเทราไบต์ต่อวินาที³ ทุกตัวเลขแสดงถึงการเพิ่มขึ้นเป็นสองหรือสามเท่าของความสามารถปัจจุบัน เรียกร้องวิวัฒนาการโครงสร้างพื้นฐานที่ท้าทายสมมติฐานพื้นฐานเกี่ยวกับการออกแบบศูนย์ข้อมูล
ผู้ให้บริการคลาวด์รายใหญ่จองความจุสำหรับการติดตั้ง Vera Rubin แล้ว แม้จะยังไม่แน่ใจเกี่ยวกับสเปกสุดท้าย Microsoft ลงทุน 15 พันล้านดอลลาร์สำหรับโครงสร้างพื้นฐานที่รองรับแพลตฟอร์มรุ่นถัดไป พร้อมสิ่งอำนวยความสะดวกที่ออกแบบสำหรับความหนาแน่นแร็ค 500kW⁴ Amazon Web Services สร้างภูมิภาคใหม่โดยเฉพาะสำหรับการประมวลผลความหนาแน่นสูงสุด พร้อมสถานีไฟฟ้าย่อยที่จ่ายไฟ 500 เมกะวัตต์ให้สิ่งอำนวยความสะดวกเดียว⁵ การแข่งขันด้านโครงสร้างพื้นฐานเผยให้เห็นความจริงอันโหดร้าย: องค์กรที่ไม่เตรียมพร้อมสำหรับความต้องการของ Vera Rubin จะพบว่าตัวเองถูกกีดกันจากความสามารถ AI ขั้นสูงโดยสิ้นเชิง
ก้าวกระโดดทางสถาปัตยกรรมนิยามใหม่ของขนาดการประมวลผล
สถาปัตยกรรมของ Vera Rubin ละทิ้งการปรับปรุงทีละน้อยเพื่อการออกแบบใหม่อย่างปฏิวัติ แต่ละชิปมีทรานซิสเตอร์ประมาณ 500 พันล้านตัว เกือบสามเท่าของ Blackwell ที่มี 208 พันล้านตัว เปิดใช้งานโดยกระบวนการ N2 ของ TSMC ที่บรรลุความหนาแน่นที่ไม่เคยมีมาก่อน⁶ งบประมาณทรานซิสเตอร์เปิดใช้งาน tensor cores 20,000 ตัวต่อชิป แต่ละตัวสามารถดำเนินการความแม่นยำผสมจาก INT4 ถึง FP64 ปรัชญาการออกแบบเปลี่ยนจากการเร่งความเร็วอเนกประสงค์เป็นการเพิ่มประสิทธิภาพเฉพาะ AI โดย 80% ของพื้นที่ดายอุทิศให้กับหน่วยคูณเมทริกซ์
สถาปัตยกรรมหน่วยความจำทำลายทุกสถิติผ่านการรวม HBM4 ที่ให้แบนด์วิดท์ถึง 13TB/s ต่อชิป โรดแมป HBM4 ของ Samsung แสดงสแต็คที่มีอินเทอร์เฟซ 2048 บิตทำงานที่ความเร็วสูง โดยแพลตฟอร์ม NVL144 เต็มรูปแบบบรรลุหน่วยความจำเร็ว 75TB⁷ Rubin GPU แต่ละตัวให้ความจุหน่วยความจำ HBM4 288GB เพียงพอที่จะให้บริการโมเดลพารามิเตอร์ 400 พันล้านจากหน่วยความจำ GPU เดียว ระบบย่อยหน่วยความจำเพียงอย่างเดียวใช้พลังงานมาก ต้องการการระบายความร้อนขั้นสูงเพียงสำหรับการจัดการความร้อน DRAM Rubin Ultra ที่มาถึงในครึ่งหลังปี 2027 จะใช้หน่วยความจำ HBM4e ที่มีความจุถึง 365TB ข้ามการกำหนดค่า NVL576
วิวัฒนาการการเชื่อมต่อเปิดใช้งานการประมวลผลแบบกระจายที่แท้จริงในระดับที่ไม่เคยมีมาก่อน NVLink รุ่นที่หกรองรับ 200 เลนที่ 25Gbps แต่ละเลน ให้แบนด์วิดท์สองทิศทาง 5TB/s ระหว่าง GPU⁸ แบนด์วิดท์อนุญาตให้ 256 GPU ทำงานเป็นหน่วยการประมวลผลที่สอดคล้องกันพร้อมเวลาแฝงการเข้าถึงหน่วยความจำแบบสม่ำเสมอต่ำกว่า 500 นาโนวินาที บทลงโทษการประมวลผลแบบกระจายแบบดั้งเดิมหายไปเมื่อระบบทำงานเหมือนโปรเซสเซอร์ขนาดใหญ่เดียวมากกว่าคลัสเตอร์
สถาปัตยกรรม chiplet กลายเป็นกุญแจสู่ความเป็นไปได้ในการผลิต ดายแบบโมโนลิธิกที่เข้าใกล้ 1,000mm² เผชิญกับความท้าทายด้านผลผลิตที่ร้ายแรง โดยอัตราข้อบกพร่องทำให้การผลิตเป็นไปไม่ได้ทางเศรษฐกิจ Vera Rubin น่าจะใช้การซ้อน chiplet 3D พร้อมดายคอมพิวต์ที่ผลิตบน N2 และดาย IO บนกระบวนการ N4 ที่โตเต็มที่⁹ การบรรจุภัณฑ์ขั้นสูงโดยใช้เทคโนโลยี SoIC ของ TSMC เปิดใช้งานการเชื่อมต่อ 50,000 ครั้งต่อตารางมิลลิเมตรระหว่าง chiplets รักษาความสมบูรณ์ของสัญญาณที่ความเร็วหลายเทราบิต¹⁰
สถาปัตยกรรมการจ่ายไฟต้องการการจินตนาการใหม่ทั้งหมดที่การใช้พลังงานชิป 2,000 วัตต์ การแปลงไฟ 12V แบบดั้งเดิมสร้างการสูญเสียที่ยอมรับไม่ได้ในระดับกระแสดังกล่าว Vera Rubin ใช้การจ่ายไฟ 48V โดยตรงถึงชิปพร้อมการควบคุมแรงดันไฟฟ้าบนแพ็คเกจ¹¹ สถาปัตยกรรมพลังงานแบบแยกส่วนของ Vicor แสดงประสิทธิภาพ 98% ที่โหลด 2,000W แต่ต้องการการระบายความร้อนด้วยของเหลวสำหรับส่วนประกอบการจ่ายไฟเอง¹² ระบบจ่ายไฟกลายเป็นซับซ้อนเท่ากับสถาปัตยกรรมคอมพิวต์ที่มันสนับสนุน
ความต้องการโครงสร้างพื้นฐานเกินความสามารถปัจจุบัน
ความต้องการพลังงานสำหรับการติดตั้ง Vera Rubin ทำลายสมมติฐานการออกแบบศูนย์ข้อมูลแบบเดิม แร็คเดียวสามารถดึงไฟถึง 600kW อย่างต่อเนื่อง เทียบเท่ากับบ้านอเมริกันเกือบ 500 หลัง¹³ ความหนาแน่นพลังงานถึงกว่า 700kW ต่อตารางเมตร 10 เท่าของการติดตั้งความหนาแน่นสูงปัจจุบัน สิ่งอำนวยความสะดวกต้องการฟีดแรงดันกลาง 13.8kV เฉพาะพร้อมสถานีไฟฟ้าย่อยในพื้นที่ที่ให้การจ่ายไฟ 4,160V โครงสร้างพื้นฐานไฟฟ้าสำหรับการติดตั้ง 100 แร็คมีค่าใช้จ่าย 100 ล้านดอลลาร์ก่อนพิจารณาฮาร์ดแวร์คอมพิวต์
การระบายความร้อน 500kW ต่อแร็คผลักดันเกินความสามารถการระบายความร้อนด้วยของเหลวปัจจุบันเข้าสู่ดินแดนที่ไม่เคยสำรวจ ฟลักซ์ความร้อนที่ระดับชิปเกิน 500W/cm² เข้าใกล้ความหนาแน่นความร้อนของห้องเผาไหม้เครื่องยนต์จรวด¹⁴ การระบายความร้อนด้วยของเหลวสองเฟสกลายเป็นสิ่งจำเป็น โดยใช้ของไหลวิศวกรรมที่เดือดที่อุณหภูมิที่ควบคุมอย่างแม่นยำ ของไหล Novec รุ่นถัดไปของ 3M จัดการ 1,000W/cm² ในการสาธิตในห้องปฏิบัติการ แต่ต้องการสภาพแวดล้อมที่บริสุทธิ์ซึ่งยากที่จะรักษาในศูนย์ข้อมูลการผลิต¹⁵
การระบายความร้อนโดยตรงถึงชิปวิวัฒนาการเป็นสถาปัตยกรรมไมโครแชนเนลที่มีคุณสมบัติเล็กกว่าเส้นผมมนุษย์ การวิจัยของ IBM แสดงไมโครแชนเนลซิลิคอนกว้าง 50 ไมโครเมตรที่กำจัด 1kW/cm² พร้อมการเพิ่มขึ้นของอุณหภูมิ 5°C¹⁶ การผลิตโซลูชันระบายความร้อนเหล่านี้ต้องการเทคนิคการผลิตเซมิคอนดักเตอร์ ทำให้ตัวระบายความร้อนมีความซับซ้อนเท่ากับชิปที่พวกมันระบายความร้อน แต่ละ cold plate มีราคา $10,000-15,000 และต้องการการบำรุงรักษารายไตรมาสเพื่อป้องกันการสะสมของแร่ธาตุที่ลดประสิทธิภาพ
การออกแบบสิ่งอำนวยความสะดวกละทิ้งพื้นยกแบบดั้งเดิมเพื่อพื้นโครงสร้างที่รองรับโหลด 2,000kg/m² การกระจายของเหลวต้องการท่อเส้นผ่านศูนย์กลาง 12 นิ้วที่ส่งมอบ 1,000 แกลลอนต่อนาทีไปยังแต่ละแถว ระบบกักเก็บการรั่วไหลต้องจัดการกับความล้มเหลวที่ร้ายแรงที่อาจปล่อยสารหล่อเย็น 5,000 แกลลอนในไม่กี่วินาที การกักเก็บทุติยภูมิเพิ่มค่าก่อสร้างสิ่งอำนวยความสะดวกเป็นสองเท่า แต่ป้องกันภัยพิบัติทางสิ่งแวดล้อมที่จะกระตุ้นการปิดตามกฎระเบียบ
โครงสร้างพื้นฐานเครือข่ายขยายตามสัดส่วนกับพลังการประมวลผล ระบบ Vera Rubin แต่ละระบบต้องการ 16 พอร์ตของ 800GbE สำหรับการเชื่อมต่อภายนอก รวม 12.8Tb/s ต่อระบบ¹⁷ การสลับแสงกลายเป็นสิ่งจำเป็นเนื่องจากสายทองแดงไม่สามารถรองรับแบนด์วิดท์ที่ต้องการในระยะทางศูนย์ข้อมูลได้ สวิตช์โฟโตนิกจากบริษัทเช่น Lightmatter ให้เวลาสลับนาโนวินาทีโดยไม่มีการใช้พลังงานสำหรับผ้าสลับเอง¹⁸ เครือข่ายเพียงอย่างเดียวแสดงถึงการลงทุน 50 ล้านดอลลาร์สำหรับการติดตั้งปานกลาง
ระบบนิเวศซอฟต์แวร์ต้องการวิวัฒนาการพื้นฐาน
โมเดลการเขียนโปรแกรมที่ออกแบบสำหรับ GPU แยกล้มเหลวอย่างร้ายแรงบนสถาปัตยกรรมแบบรวมของ Vera Rubin เฟรมเวิร์กแบบดั้งเดิมแบ่งงานข้ามอุปกรณ์ สมมติพื้นที่หน่วยความจำอิสระและการซิงโครไนซ์ที่ชัดเจน ระบบ 256 GPU ที่สอดคล้องกันของ Vera Rubin ทำงานเป็นอุปกรณ์ลอจิคัลเดียวพร้อมหน่วยความจำเสมือนแบบรวมที่ครอบคลุม 36TB นักพัฒนาต้องคิดใหม่กลยุทธ์การขนานกัน โดยถือว่าแพลตฟอร์มเป็นระบบ NUMA ขนาดใหญ่แทนที่จะเป็นคลัสเตอร์แบบกระจาย
โรดแมป CUDA 15.0 ของ NVIDIA แสดงการเปลี่ยนแปลง API พื้นฐานที่รองรับการประมวลผลระดับเอกซาสเกล Cooperative Groups ขยายเพื่อรองรับเธรดนับล้านที่ประสานงานกันข้ามระบบทั้งหมด¹⁹ Unified Memory วิวัฒนาการเพื่อจัดการการจัดสรรระดับเพตะไบต์พร้อมการย้ายหน้าอัตโนมัติระหว่างระดับคอมพิวต์และสตอเรจ โมเดลการเขียนโปรแกรมทำให้ความซับซ้อนของฮาร์ดแวร์เป็นนามธรรม แต่ต้องการความเข้าใจลึกซึ้งเกี่ยวกับลำดับชั้นหน่วยความจำเพื่อบรรลุประสิทธิภาพที่เหมาะสม
เทคโนโลยีคอมไพเลอร์กลายเป็นสิ่งสำคัญสำหรับการดึงความสามารถของแพลตฟอร์ม การแสดงตัวกลางตามกราฟจับโครงสร้างแอปพลิเคชัน เปิดใช้งานการเพิ่มประสิทธิภาพเชิงรุกข้ามระบบทั้งหมด MLIR (Multi-Level Intermediate Representation) กลายเป็นรากฐานสำหรับคอมไพเลอร์รุ่นถัดไปที่เพิ่มประสิทธิภาพจากการดำเนินการทางคณิตศาสตร์ระดับสูงจนถึงคำสั่ง tensor core เดี่ยว²⁰ เวลาคอมไพล์สำหรับโมเดลขนาดใหญ่ขยายเป็นชั่วโมง แต่โค้ดที่สร้างขึ้นบรรลุ 90% ของประสิทธิภาพสูงสุดทางทฤษฎี
แพลตฟอร์มการจัดการคอนเทนเนอร์ต้องการการปรับปรุงสถาปัตยกรรมเพื่อจัดการการติดตั้ง Vera Rubin การนามธรรมของ Kubernetes แตกเมื่อพ็อดเดียวต้องการ 256 GPU และงบประมาณพลังงาน 500kW ตัวจัดการใหม่เกิดขึ้นที่เข้าใจข้อจำกัดโครงสร้างพื้นฐาน: ความพร้อมใช้งานพลังงาน ความจุระบายความร้อน โทโพโลยีเครือข่าย และโดเมนความล้มเหลว การตัดสินใจจัดตารางพิจารณาสถานะความร้อนและสภาพโครงข่ายไฟฟ้าควบคู่กับความพร้อมใช้งานคอมพิวต์แบบดั้งเดิม
เครื่องมือดีบักและโปรไฟล์เผชิญกับความซับซ้อนอันล้นหลาม ระบบ Vera Rubin เดียวสร้างข้อมูลโทรมิเตอร์ประสิทธิภาพ 100GB/s ต้องการโครงสร้างพื้นฐานเฉพาะเพียงสำหรับการตรวจสอบ²¹ โปรไฟเลอร์แบบดั้งเดิมไม่สามารถจัดการระบบที่การเปิดใช้งานเคอร์เนลเดี่ยวเกี่ยวข้องกับเธรดหลายพันล้าน การวิเคราะห์ที่ขับเคลื่อนด้วย AI กลายเป็นสิ่งจำเป็นเพื่อระบุคอขวดประสิทธิภาพและโอกาสในการเพิ่มประสิทธิภาพในน้ำท่วมข้อมูลโทรมิเตอร์ นักพัฒนาพึ่งพาการเรียนรู้ของเครื่องเพื่อเข้าใจพฤติกรรมระบบการเรียนรู้ของเครื่อง
โมเดลเศรษฐกิจท้าทายตรรกะการลงทุน
ราคาที่คาดการณ์ของ Vera Rubin ที่ 10 ล้านดอลลาร์ต่อระบบดูเหมือนสูงลิ่ว จนกว่าจะเปรียบเทียบกับความสามารถที่ส่งมอบ แปดเอกซาฟลอปส์เท่ากับ NVIDIA H100 GPU 1,000 ตัวในการประมวลผลดิบ แต่ให้ประสิทธิภาพที่มีประสิทธิผลดีกว่า 10 เท่าผ่านประสิทธิภาพทางสถาปัตยกรรม²² การสร้างความสามารถเทียบเท่าด้วยเทคโนโลยีปัจจุบันจะมีค่าใช้จ่าย 40 ล้านดอลลาร์และใช้พลังงาน 5MW ประสิทธิภาพเงินทุน 4 เท่าและประสิทธิภาพพลังงาน 10 เท่าเปลี่ยนแปลงการคำนวณต้นทุนการเป็นเจ้าของทั้งหมด
ค่าใช้จ่ายการดำเนินงานแคระค่าใช้จ่ายเงินทุนตลอดอายุการใช้งานระบบ การใช้พลังงานที่ 500kW มีค่าใช้จ่าย $400,000 ต่อปีที่อัตราอุตสาหกรรม การระบายความร้อนเพิ่มอีก $100,000 สิ่งอำนวยความสะดวก การบำรุงรักษา และการดำเนินงานมีส่วน $500,000 ต่อปี ระบบ Vera Rubin แต่ละระบบมีค่าใช้จ่ายดำเนินงาน 1 ล้านดอลลาร์ต่อปี ทำให้การใช้ประโยชน์เป็นสิ่งสำคัญสำหรับความเป็นไปได้ทางเศรษฐกิจ องค์กรที่บรรลุการใช้ประโยชน์ 80% กระจายต้นทุนข้ามการประมวลผลมากขึ้น ลดค่าใช้จ่ายต่อการดำเนินงานลง 60%
กลยุทธ์การคิดค่าเสื่อมราคาต้องการการคิดใหม่เมื่อวิวัฒนาการเทคโนโลยีเร่งขึ้น การคิดค่าเสื่อมราคาสามปีแบบดั้งเดิมสมมติการลดลงของมูลค่า 33% ต่อปี แต่ระบบ Vera Rubin อาจรักษามูลค่าได้นานกว่าผ่านการเพิ่มประสิทธิภาพซอฟต์แวร์ Volta GPU รุ่นแรกจากปี 2017 ยังคงมีความเป็นไปได้ทางเศรษฐกิจสำหรับปริมาณงานเฉพาะเจ็ดปีต่อมา²³ headroom ความสามารถขนาดใหญ่ของ Vera Rubin แนะนำอายุการใช้งานห้าปี ปรับปรุงผลตอบแทนการลงทุนอย่างมาก
โมเดลรายได้ต้องวิวัฒนาการเพื่อสนับสนุนการลงทุนโครงสร้างพื้นฐาน การฝึกโมเดลระดับ GPT-5 บนโครงสร้างพื้นฐาน Vera Rubin อาจมีค่าใช้จ่าย 100 ล้านดอลลาร์ แต่เสร็จสิ้นในไม่กี่สัปดาห์แทนที่จะเป็นเดือน²⁴ พรีเมียมความเร็วพิสูจน์ต้นทุนสำหรับองค์กรที่เวลาในการออกสู่ตลาดกำหนดความสำเร็จ การกำหนดราคา API สำหรับโมเดลที่ฝึกบน Vera Rubin ต้องสะท้อนต้นทุนโครงสร้างพื้นฐานในขณะที่ยังแข่งขันได้กับโมเดลขนาดเล็กที่ฝึกบนฮาร์ดแวร์รุ่นเก่า
กลไกการจัดหาเงินทุนปรับตัวตามขนาดโครงสร้างพื้นฐาน การเช่าอุปกรณ์แบบดั้งเดิมล้มเหลวเมื่อระบบเดี่ยวมีราคา 10 ล้านดอลลาร์พร้อมมูลค่าคงเหลือที่ไม่แน่นอน โมเดลใหม่เกิดขึ้นที่ผสมผสานการจัดหาเงินทุนอุปกรณ์ พลัง
[เนื้อหาถูกตัดสำหรับการแปล]