NVIDIA công bố phiên bản PCIe 4.0 của A100: GPU 250W trên form factor chuẩn

Với sự ra mắt của kiến ​​trúc Ampere và bộ tăng tốc A100 mới, chỉ sau một tháng, NVIDIA cũng đã công bố phiên bản PCIe của bộ tăng tốc này để bắt đầu cho sự kiện ảo ISC Digital. Phiên bản “đóng hộp” thẳng thốn hơn so với dạng SXM4 chuyên dụng của NVIDIA, phiên bản PCie của A100 được thiết kế để cung cấp các GPU A100 theo giao tiếp PCIe truyền thống, đáp ứng những khách hàng chỉ cần cắm vào máy chủ thiết kế tiêu chuẩn. Nhìn chung, A100 PCIe cung cấp hiệu năng cao nhất tương tự như SXM4 A100, tuy nhiên với TDP 250 watt thấp hơn, hiệu suất trong trong thực tế sẽ không cao bằng.

Là dòng sản phẩm cơ bản không thể thiếu, song song với bộ tăng tốc dạng SXM của NVIDIA, bộ tăng tốc PCIe của NVIDIA được tạo ra để hoàn chỉnh danh mục sản phẩm tăng tốc GPU của NVIDIA. Trong khi NVIDIA sẵn sàng cung cấp các bộ tăng tốc dựa trên SXM – bao gồm cả các nền tảng NVIDIA HGX – vẫn có rất nhiều khách hàng cần sử dụng bộ tăng tốc GPU trong các máy chủ rackmount dựa trên giao tiếp PCIe tiêu chuẩn. Hoặc đối với các workload nhỏ hơn, khách hàng không cần đến các carrier board HGX có đến 4 socket cho các GPU A100 dạng SXM. Vì vậy, với card PCIe, NVIDIA có thể phục vụ phần còn lại của thị trường GPU mà các sản phẩm SXM của họ không thể tiếp cận.

Card GPU A100 PCIe chính là kiến trúc A100 hoàn chỉnh, chỉ khác là nằm trong một form-factor khác và với TDP phù hợp hơn. Về hiệu năng đỉnh, A100 PCIe cũng sẽ nhanh tương đương phiên bản SXM4 của nó; NVIDIA lần này không cung cấp cấu hình cắt giảm với tốc độ xung nhịp thấp hơn hoặc ít khối chức năng hơn so với phiên bản SXM4 flagship. Do đó, phiên bản PCIe mang tất cả mọi thứ mà A100 cung cấp vào bên trong nó, với cùng trọng tâm tập trung vào các tensor operations, bao gồm các định dạng TF32 và FP64 có độ chính xác cao hơn, cũng như suy luận số nguyên nhanh hơn.

Bảng so sánh thông số kỹ thuật các bộ tăng tốc NVIDIA

A100
(PCIe)
A100
(SXM4)
V100
(PCIe)
P100
(PCIe)
FP32 CUDA Cores 6912 6912 5120 3584
Boost Clock 1.41GHz 1.41GHz 1.38GHz 1.3GHz
Memory Clock 2.4Gbps HBM2 2.4Gbps HBM2 1.75Gbps HBM2 1.4Gbps HBM2
Memory Bus Width 5120-bit 5120-bit 4096-bit 4096-bit
Memory Bandwidth 1.6TB/sec 1.6TB/sec 900GB/sec 720GB/sec
VRAM 40GB 40GB 16GB/32GB 16GB
Single Precision 19.5 TFLOPs 19.5 TFLOPs 14.1 TFLOPs 9.3 TFLOPs
Double Precision 9.7 TFLOPs
(1/2 FP32 rate)
9.7 TFLOPs
(1/2 FP32 rate)
7 TFLOPs
(1/2 FP32 rate)
4.7 TFLOPs
(1/2 FP32 rate)
INT8 Tensor 624 TOPs 624 TOPs N/A N/A
FP16 Tensor 312 TFLOPs 312 TFLOPs 112 TFLOPs N/A
TF32 Tensor 156 TFLOPs 156 TFLOPs N/A N/A
Relative Performance (SXM Version) 90% 100% N/A N/A
Interconnect NVLink 3
6 Links? (300GB/sec?)
NVLink 3
12 Links (600GB/sec)
NVLink 2
4 Links (200GB/sec)
NVLink 1
4 Links (160GB/sec)
GPU GA100
(826mm2)
GA100
(826mm2)
GV100
(815mm2)
GP100
(610mm2)
Transistor Count 54.2B 54.2B 21.1B 15.3B
TDP 250W 400W 250W 300W
Manufacturing Process TSMC 7N TSMC 7N TSMC 12nm FFN TSMC 16nm FinFET
Interface PCIe 4.0 SXM4 PCIe 3.0 SXM
Architecture Ampere Ampere Volta Pascal

Do card PCIe kích thước double-width được thiết kế cho các sản phẩm TDP thấp hơn, nó để lại ít không gian hơn để làm mát và thường bị giới hạn về nguồn điện hơn, phiên bản PCIe của A100 phải giảm TDP từ 400W xuống 250W. Đó là mức giảm tiêu thụ năng lượng đáng kể 38%, và do đó, A100 PCIe sẽ không thể phù hợp với các con số hiệu suất như trên phiên bản SXM4 – đó là lợi thế của việc sử dụng form-factor được hỗ trợ về nguồn điện và làm mát cao hơn. Và như những gì đã đề cập, phiên bản PCIe của A100 sẽ cung cấp khoảng 90% hiệu suất so với phiên bản SXM4 trên workload GPU đơn, do TDP giảm mạnh, không phải là một sự đánh đổi tồi.

Khác với sự thay đổi ở form-factor và TDP, chỉ có khác biệt đáng chú ý khác cho A100 PCIe so với phiên bản SXM là số GPU có khả năng kết nối NVLink được hỗ trợ. Đối với card PCIe của họ, NVIDIA một lần nữa sử dụng các cầu nối NVLink để kết nối qua phía trên của các card A100, cho phép hai (và chỉ hai) card được liên kết với nhau. Bảng sản phẩm của NVIDIA không liệt kê tổng băng thông khả dụng, nhưng vì PCIe V100 hỗ trợ lên đến 100GB/s theo mỗi hướng bằng hai liên kết, A100 PCIe và 3 NVLink connector của nó có thể đạt 150GB/s, hoặc có thể cao hơn.

Mặt khác, A100 PCIe đi kèm với các chi tiết thông thường của dạng card PCIe. Card được làm mát hoàn toàn thụ động (passive), được thiết kế để sử dụng với các máy chủ có quạt thổi luồng mạnh mẽ. Và mặc dù không được mô tả trong các bức ảnh chính thức của NVIDIA, có các socket cho các đầu nối nguồn PCIe. Trong khi đó, với việc hạn chế sử dụng NVLink trong phiên bản card này, hỗ trợ PCIe 4.0 native của A100 chắc chắn sẽ có tầm quan trọng tăng thêm ở đây, nhấn mạnh lợi thế mà việc phối ghép AMD EPYC + NVIDIA A100 có sẵn hiện nay, vì AMD là nhà cung cấp máy chủ x86 duy nhất có hỗ trợ cho PCIe 4.0.

Để tổng kết lại, trong khi NVIDIA không công bố thông tin cụ thể về giá cả hoặc thời điểm bán ra, card A100 PCIe mới sẽ sớm được cung cấp ra thị trường. Khả năng tương thích rộng hơn của card PCIe đã giúp NVIDIA thâm nhập đến hơn 50 vendor máy chủ tại thời điểm này, với 30 trong số các máy chủ đó sẽ được bán ra vào mùa hè này.

Liên hệ tác giả