NVIDIA công bố H100 NVL – Card tăng tốc có bộ nhớ lớn tối đa, chuyên dụng cho Large Language Model (LLM)

Mặc dù sự kiện GTC Spring năm nay không có bất kỳ GPU hoặc kiến ​​trúc GPU mới nào từ NVIDIA, nhưng công ty vẫn đang trong quá trình tung ra các sản phẩm mới dựa trên GPU Hopper và Ada Lovelace đã được giới thiệu trong năm qua. Ở phân khúc cao cấp của thị trường, hãng vừa công bố một phiên bản card tăng tốc H100 mới dành riêng cho người dùng mô hình ngôn ngữ lớn (LLM): H100 NVL.

H100 NVL là một phiên bản đặc biệt của card H100 PCIe của NVIDIA, thể hiện dấu ấn mang tính thời đại và sự thành công vượt bậc của NVIDIA trong lĩnh vực AI, nhắm vào một thị trường rất đặc thù: triển khai mô hình ngôn ngữ lớn (LLM). Có một số điều khiến chiếc card này nằm tách biệt so với phần cứng máy chủ thông thường của NVIDIA – trong số đó là việc 2 chiếc H100 PCIe được kết nối với nhau (bridged) – nhưng điều đáng nói hơn chính là dung lượng bộ nhớ rất lớn của nó. Cặp GPU kép kết hợp lại cung cấp một bộ nhớ HBM3 lên đến 188GB – 94GB trên mỗi card – cung cấp nhiều bộ nhớ trên mỗi GPU hơn bất kỳ sản phẩm nào khác của NVIDIA cho đến hiện giờ, ngay cả trong với dòng H100.

So sánh thông số kỹ thuật của các phiên bản card NVIDIA H100
H100 NVL H100 PCIe H100 SXM
FP32 CUDA Cores 2 x 16896? 14592 16896
Tensor Cores 2 x 528? 456 528
Boost Clock 1.98GHz? 1.75GHz 1.98GHz
Memory Clock ~5.1Gbps HBM3 3.2Gbps HBM2e 5.23Gbps HBM3
Memory Bus Width 6144-bit 5120-bit 5120-bit
Memory Bandwidth 2 x 3.9TB/sec 2TB/sec 3.35TB/sec
VRAM 2 x 94GB (188GB) 80GB 80GB
FP32 Vector 2 x 67 TFLOPS? 51 TFLOPS 67 TFLOPS
FP64 Vector 2 x 34 TFLOPS? 26 TFLOPS 34 TFLOPS
INT8 Tensor 2 x 1980 TOPS 1513 TOPS 1980 TOPS
FP16 Tensor 2 x 990 TFLOPS 756 TFLOPS 990 TFLOPS
TF32 Tensor 2 x 495 TFLOPS 378 TFLOPS 495 TFLOPS
FP64 Tensor 2 x 67 TFLOPS? 51 TFLOPS 67 TFLOPS
Interconnect NVLink 4
18 Links (900GB/sec)
NVLink 4
(600GB/sec)
NVLink 4
18 Links (900GB/sec)
GPU 2 x GH100
(814mm2)
GH100
(814mm2)
GH100
(814mm2)
Transistor Count 2 x 80B 80B 80B
TDP 700W 350W 700-800W
Manufacturing Process TSMC 4N TSMC 4N TSMC 4N
Interface 2 x PCIe 5.0
(Quad Slot)
PCIe 5.0
(Dual Slot)
SXM5
Architecture Hopper Hopper Hopper

Động lực chính cho mã sản phẩm này là một thị trường ngách đặc thù: dung lượng bộ nhớ. Các mô hình ngôn ngữ lớn như GPT family bị giới hạn dung lượng bộ nhớ ở nhiều khía cạnh, vì chúng sẽ nhanh chóng lấp đầy ngay cả bộ tăng tốc H100 để lưu tất cả các tham số của chúng (175B trong trường hợp các mô hình GPT-3 lớn nhất). Do đó, NVIDIA đã chọn kết hợp một mã sản phẩm H100 mới cung cấp bộ nhớ cho mỗi GPU nhiều hơn một chút so với các phiên bản H100 thông thường của họ, có dung lượng cao nhất là 80GB cho mỗi GPU.

Về cơ bản, những gì chúng ta đang xem xét là một chiếc hộp đặc biệt chứa GPU GH100 và được đặt bên trong card PCIe. Tất cả các GPU GH100 đều đi kèm với 6 stack của bộ nhớ HBM – HBM2e hoặc HBM3 – với dung lượng 16GB mỗi stack. Tuy nhiên, vì lý do năng suất, NVIDIA chỉ bán các linh kiện H100 thông thường của họ với 5 trong số 6 stack HBM được bật. Vì vậy, mặc dù trên danh nghĩa có 96GB VRAM trên mỗi GPU, nhưng chỉ có 80GB trên các SKU thông thường.

Ngược lại, H100 NVL là SKU được kích hoạt đầy đủ một cách bí ẩn với tất cả 6 stack được kích hoạt. Bằng cách bật stack HBM thứ 6, NVIDIA có thể truy cập bộ nhớ bổ sung và băng thông bộ nhớ bổ sung mà nó cung cấp. Nó sẽ có một số tác động quan trọng đến sản lượng, nhưng thị trường LLM rõ ràng là đủ lớn và sẵn sàng trả phí rủi ro đủ cao cho các gói GH100 gần như hoàn hảo để khiến nó xứng đáng với thời gian của NVIDIA.

Ngay cả khi đó, cần lưu ý rằng khách hàng không có quyền truy cập vào toàn bộ 96GB mỗi card. Thay vào đó, với tổng dung lượng bộ nhớ 188GB, họ nhận được 94GB hiệu quả cho mỗi card. NVIDIA đã không đi sâu vào chi tiết về vấn đề thiết kế này trong phần tóm tắt trước của chúng tôi trước bài phát biểu chính ngày hôm nay, nhưng chúng tôi nghi ngờ rằng điều này cũng là vì lý do năng suất, khiến NVIDIA có chút chậm trễ trong việc vô hiệu hóa các cell (hay layer) xấu trong stack bộ nhớ HBM3. Kết quả cuối cùng là SKU mới cung cấp thêm 14GB bộ nhớ cho mỗi GPU GH100, tăng 17,5% bộ nhớ. Trong khi đó, băng thông bộ nhớ tổng hợp cho card là 7,8TB/giây, tương đương với 3,9TB/giây đối với các bo mạch riêng lẻ.

Bên cạnh việc tăng dung lượng bộ nhớ, theo nhiều cách, các card riêng lẻ trong H100 NVL GPU kép/card kép lớn hơn trông rất giống phiên bản SXM5 của H100 được đặt trên thẻ PCIe. Trong khi H100 PCIe bình thường bị cản trở một tí do sử dụng bộ nhớ HBM2e chậm hơn, ít SM/lõi tensor hoạt động hơn và tốc độ xung nhịp thấp hơn, thì các số liệu hiệu suất lõi tensor mà NVIDIA đang trích dẫn cho H100 NVL đều ngang bằng với H100 SXM5, cho thấy rằng thẻ này không bị cắt bớt như thẻ PCIe thông thường. Chúng tôi vẫn đang chờ thông số kỹ thuật hoàn chỉnh, cuối cùng cho sản phẩm, nhưng giả sử mọi thứ ở đây đều như đã trình bày, thì những chiếc GH100 đi vào H100 NVL sẽ đại diện cho những chiếc GH100 có giá trị cao nhất hiện có.

Và nhấn mạnh vào “số nhiều” được đề cập ở đây. Như đã lưu ý trước đó, H100 NVL không phải là một GPU đơn lẻ mà là một bộ GPU kép/card kép và nó thể hiện chính nó với hệ thống host như vậy. Bản thân phần cứng này dựa trên hai H100 có form-factor PCIe được kết nối với nhau bằng ba cầu nối NVLink 4. Về mặt vật lý, thiết kế này hầu như giống hệt với thiết kế H100 PCIe hiện có của NVIDIA – vốn đã có thể được ghép nối bằng cách sử dụng các cầu nối NVLink – vì vậy, sự khác biệt không nằm ở cấu tạo của cỗ máy khổng lồ hai board/bốn slot, mà là ở chất lượng của silicon bên trong. Nói cách khác, ngày nay bạn có thể kết hợp các thẻ H100 PCie thông thường với nhau, nhưng nó sẽ không phù hợp với băng thông bộ nhớ, dung lượng bộ nhớ hoặc thông lượng tensor của H100 NVL.

Đáng ngạc nhiên, bất chấp các thông số kỹ thuật xuất sắc, TDP hầu như không thay đổi. H100 NVL là linh kiện có công suất từ ​​700W đến 800W, chia nhỏ thành 350W đến 400W trên mỗi bo mạch, giới hạn dưới của nó có cùng TDP như H100 PCIe thông thường. Trong trường hợp này, NVIDIA có vẻ đang ưu tiên khả năng tương thích hơn là hiệu suất cao nhất, vì rất ít khung máy chủ có thể xử lý thẻ PCIe trên 350W (và vẫn còn ít hơn trên 400W), nghĩa là TDP cần phải trụ vững. Tuy nhiên, với các số liệu hiệu suất và băng thông bộ nhớ cao hơn, không rõ NVIDIA sẽ làm thế nào để mang lại hiệu suất cao hơn. Power binning có thể đi một chặng đường dài ở đây, nhưng cũng có thể xảy ra trường hợp NVIDIA cung cấp cho thẻ tốc độ xung nhịp tăng cao hơn bình thường vì thị trường mục tiêu chủ yếu quan tâm đến hiệu suất tensor và sẽ không thắp sáng toàn bộ GPU tại một lần.

Mặt khác, quyết định của NVIDIA về việc phát bộ H100 tốt nhất về cơ bản là một lựa chọn bất thường do ưu tiên chung của họ đối với các linh kiện SXM, nhưng đó là một quyết định có ý nghĩa trong bối cảnh khách hàng LLM cần gì. Các cụm H100 lớn dựa trên SXM có thể dễ dàng mở rộng quy mô lên tới 8 GPU, nhưng lượng băng thông NVLink khả dụng giữa hai GPU bất kỳ bị cản trở do nhu cầu đi qua NVSwitch. Đối với cấu hình chỉ hai GPU, việc ghép nối một bộ thẻ PCIe trực tiếp hơn nhiều, với liên kết cố định đảm bảo băng thông 600GB/giây giữa các thẻ.

Nhưng có lẽ quan trọng hơn thế chỉ đơn giản là vấn đề có thể nhanh chóng triển khai H100 NVL trong cơ sở hạ tầng hiện có. Thay vì yêu cầu cài đặt bo mạch mang H100 HGX được chế tạo riêng để ghép nối GPU, khách hàng LLM có thể chỉ cần thêm H100 NVL vào các bản build máy chủ mới hoặc nâng cấp tương đối nhanh lên các bản build máy chủ hiện có. Rốt cuộc, NVIDIA sẽ nhắm đến một thị trường rất cụ thể ở đây, vì vậy, lợi thế bình thường của SXM (và khả năng của NVIDIA để giảm trọng lượng chung của nó) có thể không áp dụng ở đây.

Tất cả đã cho thấy, NVIDIA đang chào hàng H100 NVL khi cung cấp thông lượng suy luận GPT3-175B gấp 12 lần dưới dạng HGX A100 thế hệ mới nhất (8 H100 NVL so với 8 A100). Đối với những khách hàng đang tìm cách triển khai và mở rộng quy mô hệ thống của họ cho khối lượng công việc LLM càng nhanh càng tốt, chắc chắn sẽ rất hấp dẫn. Như đã lưu ý trước đó, H100 NVL không mang lại bất kỳ điều gì mới về các tính năng kiến ​​trúc – phần lớn hiệu suất gia tăng ở đây đến từ các Transformer Engine mới của kiến ​​trúc Hopper – nhưng H100 NVL sẽ phục vụ một phân khúc cụ thể với tùy chọn là H100 PCIe nhanh nhất và tùy chọn có nhóm bộ nhớ GPU lớn nhất.

Cuối cùng, theo NVIDIA, card H100 NVL sẽ bắt đầu được bán ra vào nửa cuối năm nay. Công ty không công bố giá, nhưng đối với những gì về cơ bản nó là bộ GH100 đầu bảng, chúng tôi hy vọng họ sẽ lấy được mức giá cao nhất. Đặc biệt là khi sự bùng nổ của việc sử dụng LLM đang biến thành một cơn sốt vàng mới cho thị trường GPU máy chủ.

____
Bài viết liên quan
Góp ý / Liên hệ tác giả