Tăng tốc chưa từng có cho HPC và AI

Tensor Core cho phép tính toán chính xác hỗn hợp, tính toán thích ứng linh hoạt để tăng tốc độ thông lượng trong khi vẫn giữ được độ chính xác. Thế hệ mới nhất mở rộng các bộ tăng tốc này đến một khối lượng công việc đầy đủ. Từ tăng tốc 10 lần trong đào tạo AI với Tensor Float 32 (TF32), độ chính xác mới mang tính cách mạng, tăng 2,5 lần cho điện toán hiệu năng cao với điểm nổi 64 (FP64), NVIDIA Tensor Cores cung cấp các khả năng mới cho mọi khối lượng công việc.

Đào tạo AI cách mạng

Các mô hình AI tiếp tục bùng nổ trong sự phức tạp khi chúng thực hiện các thách thức cấp độ tiếp theo như AI đàm thoại chính xác và các hệ thống đề xuất sâu. Các mô hình AI đàm thoại như Megatron lớn hơn và phức tạp hơn hàng trăm lần so với các mô hình phân loại hình ảnh như ResNet-50. Đào tạo các mô hình lớn này về độ chính xác của FP32 có thể mất vài ngày hoặc thậm chí vài tuần. Các Tensor Core trong GPU NVIDIA cung cấp hiệu năng cao hơn theo thứ tự với các phần được giảm như TF32 và FP16. Và với sự hỗ trợ trực tiếp trong các khung công tác thông qua các thư viện NVIDIA CUDA-X ™ , việc triển khai là tự động, giúp giảm đáng kể thời gian đào tạo để hội tụ trong khi vẫn duy trì độ chính xác.

Tensor Cores cho phép NVIDIA giành được MLPerf 0.6, điểm chuẩn toàn ngành công nghiệp AI đầu tiên để đào tạo .

Suy luận đột phá về AI

Một công cụ tăng tốc suy luận AI tuyệt vời không chỉ mang lại hiệu suất tuyệt vời mà còn cả tính linh hoạt để tăng tốc các mạng thần kinh đa dạng, cùng với khả năng lập trình để cho phép các nhà phát triển xây dựng các mạng mới. Độ trễ thấp với thông lượng cao trong khi tối đa hóa việc sử dụng là yêu cầu hiệu suất quan trọng nhất của việc triển khai suy luận một cách đáng tin cậy. NVIDIA Tensor Cores cung cấp đầy đủ các bộ phận của TF TF32, bfloat16, FP16, INT8 và INT4 để cung cấp tính linh hoạt và hiệu suất không thể so sánh được.

Tensor Cores cho phép NVIDIA giành được MLPerf Inference 0.5, chuẩn mực đầu tiên trong toàn ngành AI về suy luận.

HPC nâng cao

HPC là một trụ cột cơ bản của khoa học hiện đại. Để mở khóa những khám phá thế hệ tiếp theo, các nhà khoa học sử dụng mô phỏng để hiểu rõ hơn về các phân tử phức tạp để khám phá thuốc, vật lý cho các nguồn năng lượng tiềm năng và dữ liệu khí quyển để dự đoán và chuẩn bị tốt hơn cho các kiểu thời tiết khắc nghiệt. NVIDIA Tensor Cores cung cấp đầy đủ độ chính xác, bao gồm cả FP64, để tăng tốc tính toán khoa học với độ chính xác cao nhất cần thiết.

Các NVIDIA HPC SDK là một bộ toàn diện của trình biên dịch cần thiết, thư viện, và các công cụ để phát triển ứng dụng HPC cho nền tảng NVIDIA.

A100 Tensor Core thế hệ thứ 3

Công nghệ NVIDIA Tensor Core đã mang lại sự tăng tốc đáng kinh ngạc cho AI, giảm thời gian đào tạo từ vài tuần xuống hàng giờ và cung cấp khả năng tăng tốc lớn đến suy luận. Kiến trúc NVIDIA Ampere cung cấp một hiệu suất khổng lồ và cung cấp các quy tắc mới để bao quát toàn bộ phổ theo yêu cầu của các nhà nghiên cứu, TF TF32, FP64, INT8 và INT4, tăng tốc và đơn giản hóa việc áp dụng AI và mở rộng sức mạnh của NVIDIA Tensor Cores cho HPC.

Phao căng 32

Tensor Float 32

Khi các mạng và bộ dữ liệu AI tiếp tục mở rộng theo cấp số nhân, khẩu vị điện toán của chúng đã tăng tương tự. Toán học có độ chính xác thấp hơn đã mang lại sự tăng tốc hiệu suất rất lớn, nhưng trước đây họ đã yêu cầu một số thay đổi mã. A100 mang đến độ chính xác mới, TF32 , hoạt động giống như FP32 trong khi cung cấp tốc độ lên tới 20 lần cho AI Biệt mà không yêu cầu bất kỳ thay đổi mã nào.

FP64 Tensor Cores

A100 mang lại sức mạnh của Tensor Cores cho HPC , cung cấp cột mốc lớn nhất kể từ khi giới thiệu tính toán GPU có độ chính xác kép cho HPC. Bằng cách cho phép các hoạt động ma trận ở độ chính xác FP64, toàn bộ các ứng dụng HPC cần toán học có độ chính xác kép có thể tăng hiệu suất và hiệu quả gấp 2,5 lần so với các thế hệ GPU trước đây.

Tensor Core FP16

FP16 Tensor Cores

A100 Tensor Cores tăng cường FP16 cho việc học sâu, cung cấp tốc độ tăng gấp 2 lần so với NVIDIA Volta™ cho AI. Điều này làm tăng đáng kể thông lượng và cắt giảm thời gian để hội tụ.

Chính xác INT8

INT8 Precision

Được giới thiệu lần đầu tiên trong NVIDIA Turing™ , INT8 Tensor Cores tăng tốc đáng kể thông lượng suy luận và mang lại hiệu quả rất lớn. INT8 trong kiến trúc NVIDIA Ampere cung cấp 10 lần thông lượng tương đương của Volta cho việc triển khai sản xuất. Tính linh hoạt này cho phép hiệu suất hàng đầu trong ngành cho cả khối lượng công việc lớn và thời gian thực trong các trung tâm dữ liệu lõi và cạnh.

Turing Tensor Core

Thế hệ thứ hai

Công nghệ NVIDIA Turing™ Tensor Core cung cấp khả multi-precision để suy luận AI hiệu quả. Turing Tensor Cores cung cấp một loạt các quy tắc cho đào tạo và suy luận học tập sâu, từ FP32 đến FP16 đến INT8, cũng như INT4, để cung cấp những bước đột phá về hiệu năng đối với GPU NVIDIA Pascal™ .

Tensor Core

Trở lại màu sắc căng thẳng

Volta Tensor Core

Thế hệ đầu tiên

Được thiết kế dành riêng cho việc học sâu, các Tensor Core thế hệ đầu tiên trong NVIDIA Volta™ mang đến hiệu suất đột phá với khả năng nhân ma trận ở độ chính xác hỗn hợp (mixed-precision) trong FP16 và FP32, lên đến 12x teraFLOPS (TFLOPS) cao hơn để đào tạo và 6x TFLOPS cao hơn để suy luận so với kiến trúc NVIDIA Pascal. Khả năng quan trọng này cho phép Volta cung cấp khả năng tăng tốc hiệu suất gấp 3 lần trong đào tạo và suy luận so với Pascal.

TÌM HIỂU THÊM VỀ VOLTA

Nền tảng cho trung tâm dữ liệu AI và HPC end-to-end mạnh mẽ nhất

Tenor Cores là các building-block thiết yếu của giải pháp trung tâm dữ liệu NVIDIA hoàn chỉnh kết hợp phần cứng, mạng, phần mềm, thư viện và các mô hình, ứng dụng AI được tối ưu hóa từ NGC™. Nền tảng AI và HPC end-to-end mạnh mẽ này cho phép các nhà nghiên cứu đưa ra kết quả trong thời gian thực và triển khai các giải pháp vào môi trường production ở quy mô lớn.

Giới thiệu về NVIDIA

NVIDIA với xuất phát điểm từ hãng sản xuất card tăng tốc đồ họa từ năm 1993, đến nay, hãng đã chuyển mình thành công ty chuyên cung cấp giải pháp điện toán Data Center hiệu năng cao, siêu máy tính cho AI và phân tích dữ liệu.

Nhất Tiến Chung (NTC) là nhà cung cấp các giải pháp hạ tầng CNTT, Điện toán Hiệu năng cao (HPC) cho AI với kinh nghiệm kinh doanh phần cứng từ năm 2005. Chúng tôi là nhà phân phối chính thức của NVIDIA cho các hệ thống điện toán hiệu năng cao dựa trên GPU bao gồm DGX A100, DGX Station A100 và hệ thống cụm siêu máy tính DGX SuperPOD với sức mạnh lưu trữ song song của DDN và mạng tốc độ cao từ Mellanox.

Hãng sản xuất

Workload

Theo cấu hình

Hãng sản xuất

Workstation

Deep Learning

Hãng sản xuất

Loại lưu trữ

Ứng dụng

Hãng sản xuất

Loại linh kiện

Linh kiện khác

Theo dòng máy chủ

Thiết bị mạng

Hãng sản xuất

Đối tác cung cấp

Workload

Ngành công nghiệp

Mua hàng

Về chúng tôi

Giới thiệu về NVIDIA Tensor Cores

Tăng tốc chưa từng có cho HPC và AI

Đào tạo AI cách mạng

Suy luận đột phá về AI

HPC nâng cao

A100 Tensor Core thế hệ thứ 3

Tensor Float 32

FP64 Tensor Cores

FP16 Tensor Cores

INT8 Precision

Turing Tensor Core

Thế hệ thứ hai

Volta Tensor Core

Thế hệ đầu tiên

Nền tảng cho trung tâm dữ liệu AI và HPC end-to-end mạnh mẽ nhất

Giới thiệu về NVIDIA