NVIDIA Blackwell Ultra และ B300: สิ่งที่ GPU รุ่นถัดไปต้องการ

B300 ให้ประสิทธิภาพ 15 PFLOPS FP4, หน่วยความจำ HBM3e 288GB (สแตก 12 ชั้น), แบนด์วิดท์ 8TB/s, TDP 1,400W แร็ค GB300 NVL72 บรรลุ 1.1 EXAFLOPS—ระดับ exascale ในโหนดเดียว DGX B200 ให้ประสิทธิภาพการฝึก 3 เท่า, การอนุมาน 15 เท่า...

NVIDIA Blackwell Ultra และ B300: สิ่งที่ GPU รุ่นถัดไปต้องการ

NVIDIA Blackwell Ultra และ B300: สิ่งที่ GPU รุ่นถัดไปต้องการ

อัปเดต 11 ธันวาคม 2025

อัปเดตธันวาคม 2025: B300 ให้ประสิทธิภาพ 15 PFLOPS FP4, หน่วยความจำ HBM3e 288GB (สแตก 12 ชั้น), แบนด์วิดท์ 8TB/s, TDP 1,400W แร็ค GB300 NVL72 บรรลุ 1.1 EXAFLOPS—ระดับ exascale ในโหนดเดียว DGX B200 ให้ประสิทธิภาพการฝึก 3 เท่า การอนุมาน 15 เท่า เทียบกับ Hopper ระบบจัดส่ง H2 2025 ต้องการระบบระบายความร้อนด้วยของเหลว เครือข่าย 800Gbps ความหนาแน่นพลังงานที่เกินกว่าสิ่งอำนวยความสะดวกที่มีอยู่ส่วนใหญ่

NVIDIA Blackwell Ultra GPU ให้ประสิทธิภาพการคำนวณ FP4 แบบหนาแน่น 15 petaflops หน่วยความจำมากกว่า B200 50% และประสิทธิภาพเร็วขึ้น 1.5 เท่า¹ แร็ค GB300 NVL72 เพียงตัวเดียวบรรลุการคำนวณ FP4 1.1 exaflops ทำงานเป็นซูเปอร์คอมพิวเตอร์ระดับ exascale ในโหนดเดียว² ติดตั้ง NVIDIA Blackwell GPU แปดตัว DGX B200 ให้ประสิทธิภาพการฝึก 3 เท่าและประสิทธิภาพการอนุมาน 15 เท่าของระบบ Hopper รุ่นก่อนหน้า³ ข้อกำหนดโครงสร้างพื้นฐานสำหรับ Blackwell แตกต่างอย่างมากจากสิ่งที่องค์กรเคยติดตั้งมาก่อน ต้องการระบบระบายความร้อนด้วยของเหลว เครือข่าย 800 กิกะบิต และความหนาแน่นพลังงานที่สิ่งอำนวยความสะดวกที่มีอยู่ส่วนใหญ่ไม่สามารถรองรับได้

NVIDIA ประกาศ B300 ที่ GTC 2025 โดยระบบจะจัดส่งในครึ่งหลังของปี 2025⁴ ช่วงเวลานี้สร้างความเร่งด่วนในการวางแผนสำหรับองค์กรที่ต้องเตรียมสิ่งอำนวยความสะดวก จัดหาพลังงาน และสร้างความสามารถด้านการดำเนินงานก่อนที่ฮาร์ดแวร์จะมาถึง การเข้าใจข้อกำหนดโครงสร้างพื้นฐานของ Blackwell ตอนนี้เป็นตัวกำหนดว่าองค์กรจะสามารถติดตั้งได้อย่างมีประสิทธิภาพเมื่อระบบพร้อมใช้งานหรือไม่

ข้อมูลจำเพาะของ Blackwell Ultra

Blackwell Ultra GPU มีการออกแบบแบบ dual-reticle ด้วยทรานซิสเตอร์ 208 พันล้านตัวและ streaming multiprocessor 160 ตัวข้ามสองไดย์ที่เชื่อมต่อโดยใช้ High-Bandwidth Interface ของ NVIDIA⁵ B200 มีทรานซิสเตอร์ 208 พันล้านตัวเทียบกับ 80 พันล้านตัวบน H100⁶ จำนวนทรานซิสเตอร์สะท้อนถึงความซับซ้อนทางสถาปัตยกรรมที่จำเป็นสำหรับภาระงาน AI ระดับแนวหน้า

B300 ให้หน่วยความจำ HBM3e 288 กิกะไบต์ต่อ GPU บรรลุผ่านสแตกหน่วยความจำ 12 ชั้นแทนการกำหนดค่า 8 ชั้นของ B200⁷ แบนด์วิดท์หน่วยความจำถึง 8 เทราไบต์ต่อวินาที⁸ ความจุหน่วยความจำช่วยให้สามารถประมวลผลโมเดลที่ก่อนหน้านี้ต้องการการกำหนดค่าหลาย GPU บน GPU เดียว

ข้อกำหนดพลังงานเพิ่มขึ้นอย่างมีนัยสำคัญ ชิป B300 แต่ละตัวใช้พลังงาน 1,400 วัตต์ที่หัวใจของ GB300⁹ B200 ใช้ 1,000 วัตต์ เพิ่มจาก 700 วัตต์ของ H100¹⁰ การเพิ่มจาก 700 เป็น 1,000 เป็น 1,400 วัตต์ต่อ GPU ข้ามสามเจเนอเรชันแสดงให้เห็นแนวโน้มพลังงานที่องค์กรต้องวางแผนรองรับ

ประสิทธิภาพ FP4 แบบหนาแน่นถึง 14 petaflops บน B300 เทียบกับ 9 petaflops บน B200 แสดงถึงการปรับปรุง 55.6%¹¹ ความสามารถในการคำนวณ FP4 ลดขนาดหน่วยความจำประมาณ 1.8 เท่าเทียบกับ FP8 ในขณะที่รักษาความแม่นยำที่เกือบเทียบเท่า¹² ความสามารถความแม่นยำต่ำตอบสนองภาระงานการอนุมานที่ความแม่นยำที่ลดลงช่วยเพิ่มปริมาณงานโดยไม่เสียสละคุณภาพ

ประสิทธิภาพเทียบกับ Hopper

ข้อมูลประสิทธิภาพที่ตรวจสอบแล้วแสดงปริมาณงาน LLM ที่เร็วขึ้น 11 ถึง 15 เท่าต่อ GPU เทียบกับเจเนอเรชัน Hopper¹³ HGX B200 ให้การอนุมานที่ดีขึ้นถึง 15 เท่าและการฝึก 3 เท่าเทียบกับ HGX H100 พร้อมการลดพลังงานและต้นทุน 12 เท่า¹⁴ คลัสเตอร์ GB200 NVL72 ให้การฝึกที่เร็วขึ้น 4 เท่าและการอนุมานแบบเรียลไทม์ที่เร็วขึ้น 30 เท่าเทียบกับคลัสเตอร์ H100¹⁵

B200 ให้ประสิทธิภาพ AI 20 petaflops จาก GPU เดียว H100 เดียวมีสูงสุด 4 petaflops ในการคำนวณ AI¹⁶ การปรับปรุง 5 เท่าต่อ GPU เปลี่ยนเศรษฐศาสตร์ของการติดตั้งขนาดใหญ่ องค์กรสามารถบรรลุความสามารถที่เทียบเท่าด้วย GPU น้อยลงหรือความสามารถที่มากขึ้นอย่างมีนัยสำคัญด้วยจำนวน GPU ที่เทียบเท่า

การปรับปรุงหน่วยความจำเสริมการเพิ่มการคำนวณ B200 มีหน่วยความจำ HBM3e 192 กิกะไบต์เทียบกับ HBM3 80 กิกะไบต์ของ H100¹⁷ แบนด์วิดท์หน่วยความจำถึง 8 เทราไบต์ต่อวินาที เร็วกว่า 3.35 เทราไบต์ต่อวินาทีของ H100 2.4 เท่า¹⁸ ความจุหน่วยความจำช่วยให้สามารถประมวลผล GPU เดียวของโมเดลที่ก่อนหน้านี้ต้องการการกำหนดค่าหลาย GPU ที่ซับซ้อน

สำหรับภาระงานการอนุมาน Blackwell ให้พลังงานต่อการอนุมานต่ำกว่า H100 25 เท่า¹⁹ B200 เดียวแทนที่โหนด H100 5 ตัวสำหรับการอนุมาน Llama 3 ลดต้นทุนและรอยเท้าคาร์บอน²⁰ การเพิ่มประสิทธิภาพทบต้นข้ามการติดตั้งขนาดใหญ่ที่การอนุมานครอบงำความต้องการการคำนวณ

ความแตกต่างทางสถาปัตยกรรมจาก Hopper

Hopper มุ่งเป้าไปที่การผสมผสานที่กว้างของการคำนวณประสิทธิภาพสูงและภาระงาน AI โดยเน้นความแม่นยำแบบดั้งเดิมใน FP64 และ FP32²¹ Blackwell ปรับให้เหมาะสมอย่างชัดเจนสำหรับงาน AI เชิงสร้างสรรค์ขนาดใหญ่²² จุดเน้นทางสถาปัตยกรรมสะท้อนการประเมินของ NVIDIA ว่าภาระงาน AI โดยเฉพาะการอนุมาน จะครอบงำความต้องการ GPU

Blackwell แนะนำ tensor core รุ่นที่ห้าพร้อมโหมดความแม่นยำต่ำมากที่รองรับการดำเนินการ 4 บิตและ 6 บิต²³ ความสามารถความแม่นยำต่ำเร่งภาระงานการอนุมานที่โมเดลที่ถูก quantize รักษาคุณภาพที่ยอมรับได้ ภาระงานการฝึกที่ต้องการความแม่นยำสูงกว่าได้รับประโยชน์น้อยกว่าจากการเปลี่ยนแปลงทางสถาปัตยกรรม

การเชื่อมต่อ NVLink เพิ่มขึ้นอย่างมาก Blackwell GPU แต่ละตัวมีการเชื่อมต่อ NVLink รุ่นที่ห้า 18 ตัว มากกว่าที่มีบน H100 18 เท่า²⁴ แต่ละการเชื่อมต่อให้แบนด์วิดท์สองทิศทาง 50 กิกะไบต์ต่อวินาที²⁵ การขยาย interconnect ช่วยให้สถาปัตยกรรมของ GB300 NVL72 ที่ GPU 72 ตัวทำงานเป็นผืนผ้าการคำนวณที่เป็นหนึ่งเดียว

สำหรับงาน HPC เชิงตัวเลขล้วนรวมถึงพีชคณิตเมทริกซ์ พลศาสตร์ของไหล และพลศาสตร์โมเลกุลที่มีความแม่นยำสองเท่า จุดแข็งของ Hopper ใน FP64 ต่อวัตต์ หน่วยความจำที่ใช้ร่วมกันขนาดใหญ่ และแคชที่จัดสรรได้ดีสำหรับ FP32 ยังคงได้เปรียบ²⁶ องค์กรที่มีภาระงาน HPC แบบดั้งเดิมไม่ควรสันนิษฐานว่า Blackwell ปรับปรุงทุกกรณีการใช้งานอย่างเท่าเทียมกัน

สถาปัตยกรรมแร็ค GB300 NVL72

แร็ค GB300 NVL72 ที่ระบายความร้อนด้วยของเหลวรวม Grace Blackwell Superchip 36 ตัวที่เชื่อมต่อกันผ่าน NVLink 5 และ NVLink Switching²⁷ แร็คประกอบด้วย B300 GPU 72 ตัว แต่ละตัวมีหน่วยความจำ HBM3e 288 กิกะไบต์²⁸ ด้วย GPU แต่ละตัวเชื่อมต่อผ่านแบนด์วิดท์ NVLink 1.8 เทราไบต์ต่อวินาที ระบบทำงานเป็นโหนด exascale เดียว²⁹

GB300 NVL72 ช่วยให้ AI factory มีผลผลิตสูงขึ้น 50 เท่า รวม latency ที่ดีขึ้น 10 เท่าและปริมาณงานต่อเมกะวัตต์ที่สูงขึ้น 5 เท่าเทียบกับแพลตฟอร์ม Hopper³⁰ การเพิ่มประสิทธิภาพแสดงให้เห็นว่าทำไมข้อกำหนดการระบายความร้อนด้วยของเหลวจึงเป็นการลงทุนแทนที่จะเป็นค่าใช้จ่าย

ระบบ DGX B300 ให้หน่วยความจำ HBM3e 2.3 เทราไบต์พร้อม ConnectX-8 SuperNIC แปดตัวสำหรับเครือข่าย 800 กิกะบิต³¹ ข้อกำหนดเครือข่ายตรงกับความสามารถในการคำนวณ ผืนผ้าเครือข่ายที่มีขนาดไม่เพียงพอสร้างคอขวดที่สูญเสียความจุ GPU

วางแร็ค NV72L แปดตัวเข้าด้วยกันเพื่อสร้าง Blackwell Ultra DGX SuperPOD เต็มรูปแบบ: Grace CPU 288 ตัว, Blackwell Ultra GPU 576 ตัว, หน่วยความจำ HBM3e 300 เทราไบต์ และการคำนวณ FP4 11.5 exaflops³² ขนาดแสดงถึงสิ่งที่ห้องปฏิบัติการ AI แนวหน้าติดตั้งสำหรับฝึกโมเดลที่ใหญ่ที่สุด

ข้อกำหนดโครงสร้างพื้นฐาน

ข้อกำหนดพลังงานและการระบายความร้อนเกินกว่าที่สิ่งอำนวยความสะดวกที่มีอยู่ส่วนใหญ่ให้ได้ ระบบ HGX B300 4U ใช้เทคโนโลยี DLC-2 ของ Supermicro เพื่อจับความร้อนได้ถึง 98% ผ่านการระบายความร้อนด้วยของเหลว³³ การระบายความร้อนด้วยอากาศไม่สามารถกระจายความร้อนที่ส่งออกได้ องค์กรที่วางแผนติดตั้ง Blackwell ต้องดำเนินการโครงสร้างพื้นฐานการระบายความร้อนด้วยของเหลว

ระบบ HGX B300 2-OU OCP ที่ระบายความร้อนด้วยของเหลวช่วยให้มี GPU ได้ถึง 144 ตัวต่อแร็คสำหรับ hyperscale และผู้ให้บริการคลาวด์³⁴ แร็ค ORV3 เดียวรองรับโหนดได้ถึง 18 ตัวที่มี GPU รวม 144 ตัว ขยายขนาดด้วย Quantum-X800 InfiniBand switch และหน่วยกระจายสารหล่อเย็นแบบ in-row 1.8 เมกะวัตต์³⁵ แร็คคอมพิวท์ HGX B300 แปดตัว แร็คเครือข่าย Quantum-X800 InfiniBand สามตัว และ CDU แบบ in-row สองตัวสร้างหน่วยที่ขยายได้ SuperCluster ที่มี GPU 1,152 ตัว³⁶

เครือข่ายต้องการการเชื่อมต่อ 800 กิกะบิต ทั้งแพลตฟอร์ม 2-OU OCP และ 4U เพิ่มปริมาณงานเครือข่ายผืนผ้าการคำนวณเป็นสองเท่าเป็น 800 กิกะบิตต่อวินาทีผ่าน ConnectX-8 SuperNIC ที่รวมอยู่³⁷ โมดูล I/O ของ ConnectX-8 SuperNIC โฮสต์อุปกรณ์ ConnectX-8 สองตัวสำหรับการเชื่อมต่อเครือข่าย 800 กิกะบิตต่อวินาทีต่อ GPU³⁸ องค์กรที่มีโครงสร้างพื้นฐาน 400 กิกะบิตเผชิญกับข้อกำหนดการอัปเกรด

ความพร้อมใช้งานของ Hyperscaler และองค์กร

Google Cloud เป็น hyperscaler รายแรกที่ประกาศความพร้อมใช้งานแบบ preview ของข้อเสนอที่ใช้ B200³⁹ AWS, Google Cloud, Microsoft Azure และ Oracle Cloud Infrastructure เป็นผู้ให้บริการคลาวด์รายแรกที่ให้บริการ instance ที่ขับเคลื่อนด้วย Blackwell⁴⁰ ความพร้อมใช้งานของ hyperscaler ให้การเข้าถึงผ่านคลาวด์สำหรับองค์กรที่ยังไม่พร้อมติดตั้งโครงสร้างพื้นฐานในสถานที่

HPE จัดส่งโซลูชัน NVIDIA Blackwell family ตัวแรก GB200 NVL72 ในเดือนกุมภาพันธ์ 2025⁴¹ ผู้ผลิตระบบทั่วโลก Cisco, Dell, HPE, Lenovo และ Supermicro เสนอ NVIDIA-Certified RTX PRO Server พร้อม Blackwell⁴² ระบบนิเวศของผู้จำหน่ายเติบโตอย่างรวดเร็วจากการประกาศสู่ความพร้อมในการผลิต

Pegatron และ 5C ติดตั้งแร็คที่ระบายความร้อนด้วยของเหลวตาม HGX B200 พร้อมการรวม CDU แบบ in-row ที่ศูนย์ข้อมูล Maryland ร่วมกับระบบที่ระบายความร้อนด้วยอากาศได้สำเร็จ⁴³ การติดตั้งแสดงให้เห็นโครงสร้างพื้นฐานที่พร้อมผลิตสำหรับองค์กรที่สร้าง AI factory ของตนเอง

ข้อจำกัดอุปทานส่งผลต่อความพร้อมใช้งาน ความต้องการจาก hyperscaler และห้องปฏิบัติการ AI มากเกินกำลังการผลิต⁴⁴ hyperscaler และบริษัท AI รายใหญ่สั่งซื้อโหนดจำนวนมากในขณะที่องค์กรขนาดเล็กสามารถซื้อได้ในปริมาณจำกัด⁴⁵ NVIDIA เผชิญกับ backlog ของชิป Blackwell บางส่วนเนื่องจากปัญหาการออกแบบในการผลิตช่วงแรก⁴⁶ การทำให้คลัสเตอร์ขนาดใหญ่ทำงานได้โดยทั่วไปใช้เวลาเพิ่มอีกสามเดือนหลังการส่งมอบเริ่มต้น⁴⁷

คำแนะนำการติดตั้ง

องค์กรควรพิจารณาว่าความสามารถของ Blackwell คุ้มค่ากับการลงทุนโครงสร้างพื้นฐานหรือไม่ สำหรับภาระงานที่เน้นการอนุมาน การเพิ่มประสิทธิภาพของ Blackwell น่าสนใจ สำหรับภาระงานการฝึกที่ต้องการความแม่นยำ FP64 Hopper อาจยังคงเหมาะสม

องค์กรสามารถฝึกโมเดลขนาดใหญ่บน H100 หรือ H200 GPU ต่อไปในขณะที่ใช้ B200 หรือ B300 สำหรับงานการอนุมานและการติดตั้งที่ Blackwell ให้การเพิ่มปริมาณงานและ latency ที่ใหญ่ที่สุด⁴⁸ แนวทางแบบไฮบริดปรับการลงทุนโครงสร้างพื้นฐานให้เหมาะสมข้ามประเภทภาระงาน

ราคาสะท้อนการปรับปรุงความสามารถ รายการในช่วงแรกแนะนำ B200 192GB SXM ที่ $45,000 ถึง $50,000 ต่อ GPU⁴⁹ ระบบเซิร์ฟเวอร์ 8x B200 ที่สมบูรณ์สามารถเกิน $500,000⁵⁰ ข้อกำหนดเงินทุนเอื้อต่อองค์กรที่มีโมเดลรายได้ AI ที่ชัดเจนหรือภารกิจเชิงกลยุทธ์

B200 เหมาะสำหรับการอนุมานโมเดลในระดับ การคำนวณทางวิทยาศาสตร์ ภาระงาน FP64 และระบบหลาย GPU ที่มี 4 ถึง 8 GPU⁵¹ B300 พิสูจน์แล้วว่าดีที่สุดสำหรับการฝึก LLM ที่มีปริมาณงานและผืนผ้า NVLink สูงขึ้น การอนุมานโมเดลในระดับ และซูเปอร์คอมพิวเตอร์⁵² ความแตกต่างช่วยให้องค์กรเลือกการกำหนดค่าที่เหมาะสม

การตัดสินใจลงทุนโครงสร้างพื้นฐานควรพิจารณาข้อกำหนดการระบายความร้อนด้วยของเหลว เครือข่าย 800 กิกะบิต และพลังงานของ Blackwell องค์กรที่มีสิ่งอำนวยความสะดวกที่ระบายความร้อนด้วยอากาศที่มีอยู่เผชิญกับต้นทุนการปรับปรุงหรือการก่อสร้างใหม่ องค์กรที่ไม่มีโครงสร้างพื้นฐานเครือข่าย 800 กิกะบิตต้องการการอัปเกรดผืนผ้า สิ่งอำนวยความสะดวกที่ไม่มีความหนาแน่นพลังงานที่เพียงพอไม่สามารถโฮสต์ระบบ Blackwell ได้โดยไม่คำนึงถึงการเตรียมการอื่นๆ

ช่องว่างโครงสร้างพื้นฐานระหว่างข้อกำหนด Hopper และ Blackwell เกินกว่าการเปลี่ยนผ่านเจเนอเรชัน NVIDIA ใดๆ ก่อนหน้านี้ องค์กรที่เริ่มวางแผนตอนนี้จะอยู่ในตำแหน่งสำหรับการติดตั้งเมื่อระบบพร้อมใช้งาน องค์กรที่ล่าช้าจะพบว่าข้อจำกัดสิ่งอำนวยความสะดวกจำกัดความสามารถ AI ของพวกเขาโดยไม่คำนึงถึงงบประมาณ GPU


ประเด็นสำคัญ

สำหรับสถาปนิกโครงสร้างพื้นฐาน: - B300: 15 PFLOPS FP4, HBM3e 288GB (สแตก 12 ชั้น), แบนด์วิดท์หน่วยความจำ 8TB/s, TDP 1,400W ต่อ GPU - GB300 NVL72: 72 GPU, 1.1 exaflops FP4, แบนด์วิดท์ NVLink 1.8TB/s ต่อ GPU; DGX SuperPOD: 576 GPU, 11.5 exaflops - การเพิ่มพลังงาน: H100 (700W) → B200 (1,000W) → B300 (1,400W); ช่องว่างโครงสร้างพื้นฐานเกินกว่าการเปลี่ยนผ่านเจเนอเรชันใดๆ ก่อนหน้า

สำหรับทีมจัดซื้อ: - B200 192GB SXM: $45,000-$50,000 ต่อ GPU; ระบบเซิร์ฟเวอร์ 8x B200 ที่สมบูรณ์เกิน $500,000 - ข้อจำกัดอุปทานยังคงมีอยู่; ความต้องการจาก hyperscaler มากเกินกำลังการผลิตโดยมีความล่าช้าในการติดตั้ง 3+ เดือนหลังการส่งมอบ - HPE จัดส่ง GB200 ตัวแรก

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING