Giới thiệu GPU NVIDIA A40: dòng GPU mạnh mẽ nhất cho Data Center, Cloud và cả Desktop

GPU NVIDIA A40 là một bước đột phá về hiệu suất và khả năng kết hợp multi-workload trong trung tâm dữ liệu, kết hợp năng lực đồ họa mạnh mẽ nhất, cùng với khả năng tăng tốc xử lý cho AI để đáp ứng các yêu cầu về thiết kế, sáng tạo và nghiên cứu khoa học ngày nay. Nó cũng thúc đẩy sự ra đời thế hệ tiếp theo của các máy trạm ảo (virtual workstation) và các workload dựa trên máy chủ. NVIDIA A40 mang đến các tính năng hiện đại cho ray-traced rendering, mô phỏng, sản phẩm ảo và vô vàn các ứng dụng khác.

Thông số cơ bản: 48GB GDDR6, 696 GB/s, PCIe 4.0, 3x DisplayPort, 1×8-pin 300W

Hiệu năng

Kiến trúc NVIDIA Ampere

NVIDIA A40 là GPU cho máy trạm mạnh mẽ nhất cung cấp tính năng realtime ray-tracing hiệu năng cao, tăng tốc AI và kết xuất đồ họa chuyên nghiệp.

Nhân CUDA

Các lõi CUDA của kiến trúc NVIDIA Ampere mang lại phép toán FP32 nhanh gấp 2 lần so với thế hệ trước, cung cấp các cải tiến hiệu suất đáng kể cho quy trình đồ họa, chẳng hạn như phát triển mô hình 3D (CAD) và tính toán cho các mô phỏng CAE.

RT Core thế hệ 2

Với thông lượng lên đến gấp 2 lần so với thế hệ trước và khả năng chạy đồng thời theo dõi tia với khả năng tạo bóng hoặc làm mờ, RT Cores thế hệ thứ hai cung cấp tốc độ lớn cho khối lượng công việc như kết xuất ảnh thực nội dung phim, đánh giá thiết kế kiến trúc và tạo mẫu ảo của kiểu dáng sản phẩm. Công nghệ này cũng tăng tốc độ hiển thị hiện tượng nhòe chuyển động theo tia để có kết quả nhanh hơn với độ chính xác hình ảnh cao hơn.

Tensor Core thế hệ 3

A40 bao gồm các lõi Tensor nâng cao giúp tăng tốc nhiều loại dữ liệu hơn và bao gồm tính năng Fine-Grained Structured Sparsity mới mang đến thông lượng gấp 2 lần cho ma trận tensor so với thế hệ trước. Hỗ trợ phần cứng cho sự thưa thớt về cấu trúc giúp tăng gấp đôi thông lượng cho hội nghị. Tensor Cores cũng mang AI vào đồ họa với các khả năng như DLSS , AI khử nhiễu và chỉnh sửa nâng cao cho các ứng dụng được chọn.

PCIE Thế hệ 4

PCI Express Gen 4 tăng gấp đôi băng thông của PCIe Gen 3, cải thiện tốc độ truyền dữ liệu từ bộ nhớ CPU cho các tác vụ đòi hỏi nhiều dữ liệu như AI, khoa học dữ liệu và thiết kế 3D. Hiệu suất PCIe nhanh hơn cũng tăng tốc độ truyền truy cập bộ nhớ trực tiếp GPU (DMA), cung cấp khả năng giao tiếp I / O nhanh hơn đối với dữ liệu video giữa GPU và GPUDirect ^® cho các thiết bị hỗ trợ Video, mang đến giải pháp mạnh mẽ cho truyền hình trực tiếp. A40 tương thích ngược với PCI Express Gen 3 để triển khai linh hoạt.

Bộ nhớ GDDR6 48GB tốc độ cao

Được xây dựng với bộ nhớ GDDR6 48GB mang lại thông lượng lớn hơn 15% cho khối lượng công việc cần ray-tracing, rendering và AI so với thế hệ trước. Bộ nhớ GDDR6 này siêu nhanh, có thể mở rộng lên đến 96GB với NVLink, mang đến cho các nhà khoa học dữ liệu, kỹ sư và các chuyên gia sáng tạo bộ nhớ lớn cần thiết để làm việc với các bộ dữ liệu và khối lượng công việc lớn như khoa học dữ liệu và mô phỏng.

Error Correcting Code (ECC) trên bộ nhớ đồ họa

Đáp ứng các yêu cầu nghiêm ngặt về tính toàn vẹn dữ liệu cho các ứng dụng quan trọng cho các máy trạm…

NVLink thế hệ 3

Kết nối hai GPU A40 với nhau để mở rộng từ 48GB bộ nhớ GPU lên 96GB. Băng thông kết nối giữa GPU với GPU tăng lên cung cấp một bộ nhớ có thể mở rộng để tăng tốc đồ họa và tính toán khối lượng công việc cũng như giải quyết các tập dữ liệu lớn hơn. Đầu nối NVLink mới, nhỏ gọn hơn cho phép thực hiện chức năng trong nhiều loại máy chủ hơn.

Sẵn sàng cho ảo hóa mật độ cao

Những cải tiến thế hệ tiếp theo với phần mềm GPU ảo NVIDIA (vGPU) cho phép tạo ra các phiên bản máy trạm ảo lớn hơn, mạnh mẽ hơn cho người dùng từ xa, cho phép thiết kế từ xa cao cấp, AI và khối lượng công việc tính toán

Hiệu quả và bảo mật cao cho trung tâm dữ liệu

Với thiết kế hai khe cắm, tiết kiệm điện năng, NVIDIA A40 tiết kiệm điện năng gấp 2 lần so với thế hệ trước và tương thích với nhiều loại máy chủ từ các nhà cung cấp trên toàn thế giới. NVIDIA A40 cũng bao gồm chip CEC 1712 cho phép khởi động an toàn và được đo lường với phần cứng gốc đáng tin cậy, đảm bảo rằng phần sụn không bị giả mạo hoặc bị hỏng.

Hỗ trợ về phần mềm

Phần mềm NVIDIA Virtual GPU

Hỗ trợ phần mềm NVIDIA Virtual GPU (vGPU) cho phép máy trạm cá nhân được tái định vị thành nhiều phiên bản máy trạm ảo hiệu suất cao cho phép người dùng từ xa chia sẻ tài nguyên để thúc đẩy thiết kế cao cấp, AI và tính toán khối lượng công việc.

NVIDIA® Quadro Experience

Quadro Experience cung cấp một bộ công cụ năng suất cho máy trạm để bàn của bạn, bao gồm ghi 4K, cảnh báo tự động về các bản cập nhật trình điều khiển Quadro mới nhất và truy cập các tính năng chơi game.

Phần mềm được tối ưu hóa cho AI

Các khuôn khổ học tập sâu như Caffe2, MXNet, CNTK, TensorFlow và các khuôn khổ khác mang lại thời gian đào tạo nhanh hơn đáng kể và hiệu suất đào tạo đa nút cao hơn. Các thư viện tăng tốc GPU như cuDNN, cuBLAS và TensorRT mang lại hiệu suất cao hơn cho cả ứng dụng suy luận học sâu và Máy tính hiệu suất cao (HPC).

Nền tảng NVIDIA® CUDA® Parallel Computing

Thực thi nguyên bản các ngôn ngữ lập trình tiêu chuẩn như C / C ++ và Fortran và các API như OpenCL, OpenACC và Direct Compute để tăng tốc các kỹ thuật như “ray-tracing”, xử lý video và hình ảnh cũng như tính toán động lực học.

NVIDIA® GPUDirect dành cho video

GPUDirect cho tốc độ Video giao tiếp giữa GPU và các thiết bị I / O video bằng cách tránh các bản sao bộ nhớ hệ thống không cần thiết và chi phí CPU cao.

NVIDIA Enterprise-Management Tools

Tối đa hóa thời gian hoạt động của hệ thống, quản lý liền mạch các triển khai trên quy mô rộng và điều khiển từ xa các cài đặt đồ họa và hiển thị để có các hoạt động hiệu quả.

Thông số kỹ thuật

Architecture		Ampere
Foundry		Samsung
Process Size		8nm
Transistors		28.3 billion
Die Size		628.4 mm²
CUDA Parallel Processing Cores		10,752
NVIDIA Tensor Cores (3^rd Gen)		336
NVIDIA RT Cores (2^nd Gen)		84
GPU Memory		48 GB GDDR6 with ECC
Memory Interface		384-bit
Memory Bandwidth		696 GB/s
NVLink		2-way low profile (2-slot)
NVLink Interconnect		NVIDIA NVLink 112.5 GB/s (bidirectional) PCIe Gen4 16 GB/s
Max Power Consumption		300W
Graphics Bus		PCI Express 4.0 x16
Display Connectors		DP 1.4 (3)
Form Factor		4.4” H x 10.5” L Dual Slot
Product Weight		987g
Thermal Solution		Passive
vGPU Software Support		NVIDIA GRID^®, NVIDIA Quadro^® Virtual Data Center Workstation, NVIDIA Virtual Compute Server*
vGPU Profiles Supported		1 GB, 2 GB, 3 GB, 4 GB, 6 GB, 8 GB, 12 GB, 16 GB, 24 GB, 48 GB
NVIDIA® 3D Vision® and 3D Vision Pro		Support via 3 pin mini DIN
Frame lock		Compatible (with Quadro Sync II)
Power Connector		1x 8-pin CPU
NVENC \| NVDEC		1x ENC \| 2x DEC (includes AV1 decode)
NEBS Ready		Level 3
Secure and Measured Boot with HW Root of Trust		CEC 1712

Bản so sánh hiệu năng giữa các dòng GPU

Những điểm nổi bật bên trong kiến trúc của bộ tăng tốc NVIDIA A40

Kiến trúc NVIDIA Ampere CUDA Cores

Xử lý phép toán FP32 với tốc độ gấp đôi và hiệu suất tiêu thụ năng lượng được cải thiện, mang lại hiệu suất đáng kể trong đồ họa và quy trình tính toán, chẳng hạn như thiết kế 3D computer-aided design (CAD) và computer-aided engineering (CAE).

RT Cores Thế hệ Thứ 2

Với thông lượng được nâng lên gấp 2 lần so với thế hệ trước và khả năng đồng thời chạy Ray Tracing với khả năng đổ bóng hoặc khử nhiễu, RT Cores thế hệ thứ hai cung cấp tốc độ lớn cho các workload như kết xuất ảnh thực cho phim, lượng giá thiết kế kiến trúc và tạo mẫu ảo của thiết kế sản phẩm. Công nghệ này cũng tăng tốc độ ray-traced motion blur để có kết quả nhanh hơn với độ chính xác hình ảnh cao hơn.

Tensor Cores Thế hệ Thứ 3

Độ chính xác của Tensor Float 32 (TF32) cung cấp thông lượng training lên gấp 5 lần so với thế hệ trước đó để tăng tốc đào tạo mô hình khoa học dữ liệu và AI mà không có bất kỳ thay đổi nào về mã. Hỗ trợ phần cứng cho cấu trúc rời rạc (sparsity) cung cấp gấp đôi thông lượng cho suy luận AI (inference). Tensor Cores cũng mang AI vào đồ họa với các khả năng như deep learning super sampling (DLSS), khử nhiễu AI và chỉnh sửa nâng cao cho các ứng dụng được chọn.

Bộ nhớ GDDR6 48GB hỗ trợ NVLINK

Bộ nhớ GDDR6 cực nhanh, có thể mở rộng lên đến 96GB với NVLink 3, mang đến cho các nhà khoa học dữ liệu, kỹ sư và các chuyên gia sáng tạo bộ nhớ lớn cần thiết để làm việc với các bộ dữ liệu và khối lượng công việc khổng lồ như khoa học dữ liệu và mô phỏng.

PCIe Express Gen 4

PCI Express Gen 4 tăng gấp đôi băng thông của PCIe Gen 3, cải thiện tốc độ truyền dữ liệu từ bộ nhớ CPU cho các tác vụ đòi hỏi nhiều dữ liệu như AI, khoa học dữ liệu và thiết kế 3D. Hiệu suất PCIe nhanh hơn cũng tăng tốc các truy cập GPU Direct Memory Access (DMA), cung cấp I/O nhanh hơn cho dữ liệu video giữa GPU và thiết bị hỗ trợ “GPUDirect ® For Video” để cung cấp một giải pháp mạnh mẽ cho truyền hình trực tiếp. A40 cho phép tương thích ngược với PCI Express Gen 3.

Hiệu quả và Bảo mật cho Trung tâm Dữ liệu

Với thiết kế hai khe cắm, tiết kiệm điện năng, NVIDIA A40 tiết kiệm điện năng gấp 2 lần thế hệ trước và tương thích với nhiều loại máy chủ từ các hệ thống OEM trên toàn thế giới. NVIDIA A40 bao gồm khả năng khởi động an toàn và được đo lường với công nghệ Root-of-Trust, đảm bảo rằng firmware không bị giả mạo hoặc bị hỏng.

Cấu hình tham khảo

Các máy chủ Supermicro phù hợp lắp đặt card GPU NVIDIA A40 được Thế Giới Máy Chủ lựa chọn.

System	CPU	RAM	SSD"}">SSD	GPU	Ghi chú	Giá
AS-2024US-TRT	2x Milan 7313	128GB	2x 480GB	2x NVIDIA A40	Option Cable Power + GPU Kit	Liên hệ
SYS-7049GP-TRT	2x Gold 5218R	128GB	2x 480GB	4x NVIDIA A40		Liên hệ
SYS-740GP-TNRT	2x Silver 4316	128GB	2x 480GB	4x NVIDIA A40		Liên hệ
SYS-120GQ-TNRT	2x Silver 4316	128GB	2x 480GB	4x NVIDIA A40		Liên hệ
SYS-2029GP-TR	2x Gold 5218R	256GB	2x 480GB	6x NVIDIA A40	Option SIOM Card	Liên hệ
SYS-220GP-TNR	2x Silver 4316	256GB	2x 480GB	6x NVIDIA A40	Option SIOM Card	Liên hệ
SYS-4029GP-TRT	2x Gold 5218R	512GB	2x 480GB	8x NVIDIA A40		Liên hệ
SYS-4029GP-TRT3	2x Gold 5218R	512GB	2x 480GB	9x NVIDIA A40		Liên hệ
SYS-4029GP-TRT2	2x Gold 5218R	512GB	2x 480GB	10x NVIDIA A40		Liên hệ
SYS-420GP-TNR	2x Gold 5320	512GB	2x 480GB	10x NVIDIA A40		Liên hệ
AS-4124GS-TNR	2x Milan 7443	512GB	2x 480GB	8x NVIDIA A40		Liên hệ

→ Xem thêm: Các sản phẩm GPU NVIDIA

Nhất Tiến Chung (NTC) hiện là nhà cung cấp các giải pháp hạ tầng CNTT, Điện toán Hiệu năng cao (HPC) cho AI với kinh nghiệm kinh doanh phần cứng từ năm 2005. Chúng tôi là đối tác NPN cấp Elite (2022) chính thức của NVIDIA cho các hệ thống DGX (DGX A100, DGX Station A100) và hệ thống cụm siêu máy tính DGX SuperPOD với sức mạnh lưu trữ song song của DDN và kết nối mạng tốc độ cao từ hãng Mellanox (thuộc NVIDIA).

____
Bài viết liên quan