Meta hợp tác với NVIDIA để xây dựng hệ thống siêu máy tính nghiên cứu trí tuệ nhân tạo khổng lồ

Siêu máy tính AI của Meta – hệ thống NVIDIA DGX A100 dành cho khách hàng lớn nhất cho đến nay – sẽ cung cấp cho các nhà nghiên cứu của Meta 5 exaflops hiệu suất AI, sở hữu các máy chủ NVIDIA DGX A100 tiên tiến, được kết nối qua mạng InfiniBand và phần mềm cho phép tối ưu hóa trên hàng nghìn GPU A100.

Meta, công ty mẹ của Facebook, đã chọn công nghệ của NVIDIA cho một hệ thống mà họ tin rằng sẽ là hệ thống nghiên cứu mạnh mẽ nhất cho đến nay.

AI Research SuperCluster (RSC), được công bố hôm nay, trên thực tế đã được sử dụng để đào tạo các mô hình mới để phát triển AI.

Sau khi được triển khai đầy đủ, hệ thống RSC của Meta dự kiến ​​sẽ là khách hàng lớn nhất lắp đặt hệ thống NVIDIA DGX A100.

“Chúng tôi hy vọng RSC sẽ giúp chúng tôi xây dựng các hệ thống AI hoàn toàn mới, chẳng hạn như cung cấp khả năng dịch giọng nói theo thời gian thực cho nhiều nhóm người, mỗi người nói một ngôn ngữ khác nhau, để họ có thể cộng tác liền mạch trong một dự án nghiên cứu hoặc chơi một trò chơi AR cùng nhau”, công ty cho biết trong một bài blog.

Đào tạo các mô hình lớn nhất của AI

Khi RSC được xây dựng hoàn chỉnh, dự kiến vào cuối năm nay, Meta đặt mục tiêu sử dụng nó để đào tạo các mô hình AI với hơn một nghìn tỷ tham số. Điều đó có thể thúc đẩy các lĩnh vực như xử lý ngôn ngữ tự nhiên (NLP) cho các công việc như xác định nội dung vi phạm theo thời gian thực.

Ngoài hiệu suất trên quy mô lớn, Meta cho biết độ tin cậy cao, tính bảo mật, quyền riêng tư và tính linh hoạt để xử lý hàng loạt các mô hình AI làm các tiêu chí chính cho RSC.


Hệ thống nghiên cứu AI RSC của Meta có hàng trăm node NVIDIA DGX được liên kết trên mạng NVIDIA Quantum InfiniBand để đẩy nhanh công việc của các đội ngũ nghiên cứu AI.

Thành phần hệ thống bên trong

Hệ siêu máy tính AI mới sử dụng 760 máy chủ NVIDIA DGX A100 làm các node xử lý (compute node). Chúng chứa tổng cộng 6.080 GPU NVIDIA A100 được liên kết trên mạng NVIDIA Quantum 200Gb/s HDR InfiniBand, cung cấp 1.895 petaflop hiệu suất TF32 tổng thể.

Về mặt thiết kế, hệ thống có một bộ CDU (Cooling Distribution Unit) và phân phối làm mát bằng chất lỏng được bố trí trong các rack mạng. Ở đây các ống màu đỏ ở bên trái là chất lỏng ấm trong khi màu xanh lam ở bên phải là chất lỏng lạnh hơn:

Meta RSC 3 CDU

Hệ thống của Meta có kiểu phân phối cáp quang nằm bên trên hạ tầng rack:

Meta RSC 1

Bộ phân phối MPO / MTP:

Bộ phân phối cáp quang nổi trong hệ thống RSC của Meta

Các kênh cáp quang được dẫn đến các node hoạt động theo cơ chế multi-mode MPO/MTP:

Meta RSC Multimode MPO/MTP 200Gbps Infiniband

Meta RSC Pure Storage

Về phần lưu trữ, hệ thống trang bị 175PB dung lượng lưu trữ từ Pure Storage FlashArray cho bulk storage và 10PB FlashBlade array cho việc lưu trữ NFS.

Meta RSC Pure Storage 2

Có tổng cộng 46PB bộ nhớ cache trong các hệ thống Altus của Penguin Computing. Altus là dòng máy chủ AMD EPYC của Penguin.

Meta RSC 2

Ngoài ra cũng có các tủ rack không chứa các thành phần xử lý GPU.

Các dãy rack không phải GPU compute trong Meta RSC

Mặc dù đây là giai đoạn đầu, Meta có kế hoạch mở rộng hơn gấp 2 lần diện tích giai đoạn 1 này trong tương lai.

Bất chấp những thách thức từ COVID-19, RSC chỉ mất 18 tháng để đi từ một ý tưởng trên giấy thành một siêu máy tính AI hoạt động (được hiển thị trong video bên dưới) một phần nhờ vào công nghệ NVIDIA DGX A100 trên nền móng của Meta RSC.

Penguin Computing là đối tác NPN của NVIDIA trong việc triển khai RSC. Ngoài 760 node DGX A100 và mạng InfiniBand, Penguin cung cấp các dịch vụ được quản lý và cơ sở hạ tầng được tối ưu hóa bằng AI cho Meta bao gồm 46 petabyte bộ nhớ đệm lưu trữ thông qua các hệ thống Altus.

Tăng hiệu suất gấp 20 lần

Đây là lần thứ hai Meta chọn công nghệ NVIDIA làm nền tảng cho cơ sở hạ tầng nghiên cứu của mình. Vào năm 2017, Meta đã xây dựng thế hệ đầu tiên của cơ sở hạ tầng này cho nghiên cứu AI với 22.000 GPU NVIDIA V100 Tensor Core xử lý 35.000 công việc đào tạo AI mỗi ngày.

Các điểm benchmark ban đầu của Meta cho thấy RSC có thể đào tạo các mô hình NLP lớn nhanh hơn gấp 3 lần và chạy các công việc về thị giác máy tính nhanh hơn 20 lần so với hệ thống trước đó.

Trong giai đoạn thứ hai vào cuối năm nay, RSC sẽ mở rộng lên 16.000 GPU mà Meta tin rằng sẽ cung cấp 5 exaflop hiệu suất AI mixed precision. Và Meta đặt mục tiêu mở rộng hệ thống lưu trữ của RSC để cung cấp tới một exabyte dữ liệu với tốc độ 16 terabyte mỗi giây.

Một kiến ​​trúc có thể mở rộng

Các công nghệ điện toán cho AI của NVIDIA hiện có sẵn cho các doanh nghiệp ở mọi quy mô.

NVIDIA DGX, bao gồm toàn bộ phần mềm NVIDIA AI, dễ dàng thay đổi quy mô từ một hệ thống đơn lẻ thành cụm DGX SuperPOD chạy tại chỗ hoặc tại nhà cung cấp trên data center. Khách hàng cũng có thể thuê hệ thống DGX thông qua NVIDIA DGX Foundry.

Tham khảo thêm:
https://ai.facebook.com/blog/ai-rsc/
https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/
____
Giới thiệu hệ thống NVIDIA DGX SuperPOD
Máy chủ AI NVIDIA DGX A100
Trạm làm việc nghiên cứu AI chuẩn Data Center NVIDIA DGX STATION A100

____
Bài viết liên quan
Góp ý / Liên hệ tác giả