Mellanox với giải pháp ảo hóa Machine Learning hiệu suất cao

Mellanox, VMware và NVIDIA cùng nhau mang đến các giải pháp ảo hóa Machine Learning (ML) để đạt được hiệu quả sử dụng GPU cao nhất.

Tổng quan

Khi Định luật Moore tiếp tục chậm lại, các phương pháp mới để tăng tốc các quy trình tính toán là cần thiết để tăng hiệu suất ứng dụng. Những công nghệ ảo hóa đã được chứng minh là một cách tiếp cận hiệu quả về chi phí để đạt được khả năng mở rộng liên tục không gián đoạn. Tuy nhiên, cho đến nay, các giải pháp Machine Learning (ML) đã không phát triển để hỗ trợ ảo hóa và bị ràng buộc bởi các nguồn lực vật lý. Gần đây, VMware đã phát triển các công nghệ nhằm chia sẻ hiệu quả các bộ tăng tốc qua nền tảng xử lý và mạng được ảo hóa để cho phép quản lý chặt chẽ các runtimes và tối đa hóa hiệu suất trong môi trường ảo hóa. VMware, NVIDIA và Mellanox đã hợp tác để tích hợp “GPU ảo” (vGPU) vào trong môi trường VMware vSphere cho phép chia sẻ GPU trên nhiều máy ảo. Với sự hỗ trợ của NVIDIA và Mellanox, tài nguyên trong môi trường Machine Learning vSphere hiện có thể được ảo hóa bao gồm nhiều GPU trong khi vẫn duy trì các tính năng quan trọng như vMotion.

Ảo hóa GPU và RDMA

VMware vSphere đã áp dụng công nghệ Remote Direct Memory Access (RDMA) của Mellanox trong quá khứ trên các adapter ConnectX-5 của Mellanox nơi chúng đã từng được sử dụng thành công để cho phép các tình huống sử dụng khác nhau, chẳng hạn như VMware vSAN và trên các ứng dụng quan trọng của doanh nghiệp trong việc triển khai đám mây. Gần đây, VMware vSphere đã mở rộng hỗ trợ ảo hóa cho phần cứng GPU mới nhất của NVIDIA. Bằng cách kết hợp các lợi ích của vSphere với khả năng của các thiết bị tăng tốc phần cứng hiệu suất cao từ Mellanox và NVIDIA, nhóm đã có thể thiết kế giải pháp ML hấp dẫn có khả năng cung cấp nhiều GPU vào một máy ảo duy nhất nơi các cụm GPU được quản lý bởi vCenter.

Cải thiện Training với các GPU

Trong Deep Learning, việc giảm bớt thời gian đào tạo mạng thần kinh nhân tạo (neural-network) đang có nhu cầu cao. Các GPU bị vắt kiệt hầu hết sức mạnh trong quá trình đào tạo thần kinh. NVIDIA đã tối ưu hóa GPU của họ cho Deap Learning kể từ năm 2012. Kiến trúc GPU mới nhất của họ là Turing và có sẵn trên dòng card Tesla T4 cũng như các GPU RTX 6000 và RTX 8000, mỗi GPU đều hỗ trợ công nghệ vGPU của NVIDIA cho ảo hóa và có sẵn thông qua vComputeServer của NVIDIA. Phần mềm vComputeServer cho phép ảo hóa các GPU NVIDIA để hoạt động hơn 600 ứng dụng được tăng tốc bởi GPU cho AI, ML và HPC. Với tính năng chia sẻ GPU, nhiều máy ảo có thể được cung cấp sức mạnh bởi một GPU duy nhất để tối đa hóa sử dụng hoặc nhiều GPU ảo có thể cung cấp sức mạnh cho một máy ảo duy nhất. Chia sẻ GPU cho phép vSphere phát huy tối đa sức mạnh của các khối lượng công việc Machine Learning cường độ cao.

Mạng tốc độ cao với PVRDMA

Các Adapter thông minh ConnectX-5 EN của Mellanox cho phép tăng tốc ứng dụng thông qua công nghệ Paravirtualized RDMA (PVRDMA) để tạo điều kiện cho giao tiếp VM-to-VM. Điều này tăng cường hiệu suất truyền dữ liệu trong môi trường vSphere và cho phép hiệu quả cao hơn so với truyền tải TCP/IP thông thường. Ngoài ra, nó cho phép giữ lại những khả năng của máy ảo lõi chẳng hạn như vMotion. Việc sử dụng PVRDMA mang lại lợi thế cho khách hàng trong thế giới thực, bao gồm tối ưu hóa máy chủ và sử dụng GPU, giảm thời gian đào tạo ML, cải thiện khả năng mở rộng và có thể rút ngắn thời gian sao lưu.

Machine Learning phân tán

Có áp lực đáng kể để giảm bớt thời gian triển khai cho các mô hình Học máy (ML) và dưới dạng các bộ dữ liệu phát triển về kích thước, điều này đang ngày càng gia tăng. Có một sự leo thang cần phải có ML phân tán bởi vì nó tồn tại để giảm thời gian đào tạo và phát triển mô hình. Horovod là một framework đào tạo phân tán mã nguồn mở, nó hỗ trợ các ứng dụng ML phổ biến như TensorFlow, Keras, PyTorch và MXNet. VMware đã chọn Horovod vì nó yêu cầu chỉnh sửa tối thiểu mã người dùng và do đó giảm thời gian phát triển mô hình. Điểm chuẩn đã chứng minh rằng NVIDIA® vComputeServer (vCS) cho ảo hóa GPU đạt được hiệu quả tốt hơn hai lần bằng cách sử dụng công nghệ PVRDMA của VMware so với khi sử dụng các giao thức mạng truyền thống. Điểm chuẩn đã được thực hiện trên một cụm 4 node chạy vSphere 6.7 được trang bị GPU NVIDIA T4 cùng với phần mềm vCS và Mellanox ConnectX-5 100 GbE SmartNIC, tất cả đều được kết nối bằng Switch Mellanox Spectrum SN2700 100GbE.

Kết luận

Những công nghệ CPU và giao thức TCP/IP truyền thống đã không còn đủ hiệu quả để hỗ trợ các workload Machine Learning hiện đại. Ảo hóa và các bộ tăng tốc phần cứng là một trong những cách hiệu quả nhất để vượt qua các điểm khuyết này. Sự hỗ trợ của VMware cho vGPU và PVRDMA trong vSphere đã chứng minh thông qua tập hợp POC được phát triển mà hiệu suất và hiệu quả có thể được gia tăng đối với giải pháp ML được ảo hóa dựa trên Horovod. Giải pháp thể hiện khả năng mở rộng tuyệt vời trong khi tận dụng PVRDMA và vGPU để tăng hiệu suất ứng dụng mà vẫn giữ được các tính năng quan trọng như vMotion. Thêm nữa, các thử nghiệm đã chỉ ra rằng ngay cả các máy ảo chịu tải nặng sử dụng vGPU và PVRDMA cũng có thể được migrate thành công. Khả năng này cải thiện việc sử dụng và khả dụng trong khi vẫn cho phép tăng tốc GPU tối đa và nhắm đến việc giảm thời gian đào tạo trong các giải pháp Machine Learning.

Xem thêm tài liệu thiết kế tham khảo cho các workload Machine Learning và HPC được ảo hóa sử dụng NVIDIA GPU và VMware PVRDMA tại đây

 

Tham khảo các sản phẩm của Mellanox tại:
https://thegioimaychu.vn/thiet-bi-mang/mellanox
https://thegioimaychu.vn/linh-kien-may-chu/mellanox

Giới thiệu về Mellanox

Là một thành viên sau khi được NVIDIA mua lại vào tháng 4 năm 2020, Mellanox Technologies là nhà cung cấp hàng đầu về các giải pháp và dịch vụ kết nối thông minh trên Ethernet và InfiniBand cho máy chủ, hệ thống lưu trữ và hạ tầng siêu hội tụ. Các giải pháp kết nối thông minh của Mellanox làm tăng hiệu quả của trung tâm dữ liệu bằng cách cung cấp thông lượng cao nhất và độ trễ thấp nhất.

Nhất Tiến Chung (NTC) là nhà cung cấp các giải pháp hạ tầng Điện toán Hiệu năng cao (HPC) cho AI với kinh nghiệm kinh doanh phần cứng từ năm 2005. Chúng tôi là nhà phân phối chính thức của các hệ thống siêu máy tính cho AI với sức mạnh xử lý của GPU NVIDIA và mạng tốc độ cao từ Mellanox Technologies.

   Liên hệ tư vấn giải pháp    
1900 558879     solution@nhattienchung.vn