Hướng dẫn tối ưu hóa lưu trữ cho AI và Deep Learning workload

Trí tuệ nhân tạo (AI) và Deep Learning (DL) nằm trong số các workload đòi hỏi khắt khe nhất trong lịch sử điện toán hiện đại khi chúng tạo ra những thách thức đặc thù về tính toán, lưu trữ và tài nguyên mạng. Trong hướng dẫn công nghệ này, chúng ta sẽ thấy các công nghệ và giao thức lưu trữ file truyền thống như NFS làm hạn chế các workload của AI, do đó làm giảm hiệu suất của ứng dụng và cản trở quá trình đổi mới trong kinh doanh. Một trung tâm dữ liệu hỗ trợ AI tiên tiến sẽ hoạt động đồng thời và phục vụ hiệu quả toàn bộ phổ hoạt động liên quan đến quy trình công việc DL, bao gồm nhập dữ liệu, chuyển đổi dữ liệu, đào tạo, suy luận và đánh giá mô hình.

Đối tượng của bài hướng dẫn công nghệ mới quan trọng này bao gồm các nhà lãnh đạo chiến lược của doanh nghiệp (CIO, IT cấp giám đốc, v.v.), cùng với các nhà khoa học dữ liệu và kỹ sư dữ liệu đang tìm kiếm hướng dẫn về cơ sở hạ tầng cho AI và DL về phần cứng chuyên dụng. Điểm nhấn của hướng dẫn là các ứng dụng, workload và các thách thức hiện tại của thế giới thực tế.

Giới thiệu

Hệ thống lưu trữ được tối ưu có một cơ hội duy nhất để được khai thác nhiều hơn là một kho lưu trữ thông thường cho việc lưu trữ dữ liệu liên tục được tạo ra trong thế giới siêu kết nối ngày nay, đó là một nền tảng chia sẻ và cung cấp dữ liệu để tạo ra giá trị kinh doanh cạnh tranh. Hệ thống lưu trữ tối ưu được thiết kế cho nhu cầu của một loạt các lĩnh vực bao gồm FinTech, khoa học đời sống, thiết kế, HPC, chính phủ, thành phố thông minh / smart city, phương tiện truyền thông, năng lượng, và nhiều hơn nữa.

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI

Các giải pháp lưu trữ được tối ưu phải đối mặt với quy trình làm việc nặng về I/O như trường hợp của AI. Hạ tầng cho dữ liệu có cấu trúc truyền thống có thể được chấp nhận trong nhiều trường hợp, trong khi một nền tảng lưu trữ tối ưu được nhắm mục tiêu vào các loại vấn đề khác có xu hướng không có cấu trúc và thông lượng cao.

Ngày nay, chúng ta đang thấy một sự quan trọng trong việc tái cân bằng lại các dịch vụ cloud. AI đang tạo ra xu hướng di chuyển lên dịch vụ cloud. Về bản chất, một số doanh nghiệp tạo ra rất nhiều dữ liệu phi cấu trúc ở ngoài rìa, ví dụ như trong một chiếc xe, trong một cửa hàng, từ kính hiển vi trong phòng thí nghiệm. Các trường hợp này không thân thiện với dịch vụ cloud vì cần phải gom lại một lượng lớn dữ liệu. Với các công nghệ như 5G và IoT, điều quan trọng là thực hiện phân tích thời gian thực trên dữ liệu đó. Điều này có nghĩa là khối lượng dữ liệu khổng lồ xuất hiện và các phân tích thời gian thực đang thay đổi những gì trước đây được xem là một động thái “đưa tất cả mọi thứ lên cloud”. Sự nhấn mạnh đó đang cho thấy hiện nay nó đang bị chững lại, và trạng thái cân bằng đang được xác lập giữa edge/on-premises và các nền tảng cloud. Đó không chỉ là một câu chuyện “all-cloud”, mà còn là một hệ thống các vấn đề phức tạp hơn.

Cách tối ưu hóa lưu trữ giải quyết các thách thức AI

Cơ sở hạ tầng CNTT hỗ trợ trung tâm dữ liệu hỗ trợ AI phải thích ứng và mở rộng nhanh chóng, hiệu quả và nhất quán khi khối lượng dữ liệu tăng lên và workload ứng dụng trở nên mãnh liệt, phức tạp và đa dạng hơn. Bản chất của việc triển khai DL có nghĩa là tài nguyên CNTT phải xử lý liên tục và liên tục giữa các giai đoạn khác nhau của đào tạo thử nghiệm và suy luận sản xuất để cung cấp câu trả lời nhanh hơn và chính xác hơn. Nói tóm lại, cơ sở hạ tầng CNTT là công cụ để nhận ra tiềm năng đầy đủ của AI và DL trong kinh doanh và nghiên cứu.

Tuy nhiên, khi nhu cầu tiếp tục tăng, cơ sở hạ tầng dữ liệu CNTT của doanh nghiệp và trung tâm nghiên cứu hiện tại rất không đủ để xử lý các nhu cầu đầy thách thức của AI và DL. Được thiết kế để xử lý workload khiêm tốn, khả năng mở rộng tối thiểu, nhu cầu hiệu suất hạn chế và khối lượng dữ liệu nhỏ, các nền tảng này rất bị tắc nghẽn và thiếu các khả năng thiết yếu cần thiết cho việc triển khai hỗ trợ AI.

Lưu trữ dữ liệu là một khu vực trung tâm của trọng tâm. Có một số khác biệt dễ dàng xác định giữa lưu trữ truyền thống và
nền tảng dữ liệu AI được tối ưu hóa . Ví dụ, các thách thức với lưu trữ truyền thống bao gồm: tốc độ thấp, độ trễ kém, không tích hợp đơn vị xử lý đồ họa (GPU), không
tối ưu hóa vùng chứa, tỷ lệ giới hạn, không có nhiều người viết và giao tiếp TCP / IP không hiệu quả. Ngược lại, lợi ích của nền tảng dữ liệu AI bao gồm:
bão hòa hoàn toàn GPU / CPU, tối đa hóa hiệu quả ở quy mô, tính khả dụng của dữ liệu liên tục, tăng tốc học sâu cao nhất, khả năng mở rộng liền mạch, triển khai và quản lý dễ dàng.

Các nền tảng lưu trữ được tối ưu hóa cho workload AI và DL cung cấp hỗ trợ cho nhiều trường hợp sử dụng theo các cách sau:

  • Tăng tốc ứng dụng bằng cách đạt được bão hòa GPU đầy đủ
  • Hợp lý hóa quy trình công việc DL đồng thời và liên tục
  • Cấu hình linh hoạt với công nghệ và kinh tế tốt nhất
  • Chia tỷ lệ liền mạch để phù hợp với nhu cầu công việc đang phát triển

Dữ liệu song song từ bộ nhớ đến GPU

Các công nghệ đột phá mang tính cách mạng trong bộ xử lý và lưu trữ đóng vai trò là chất xúc tác quan trọng để hỗ trợ trung tâm dữ liệu AI hiệu quả. Ví dụ: GPU cung cấp khả năng tăng tốc tính toán trên các CPU chậm hơn, trong khi Bộ lưu trữ song song I / O được bật Flash cung cấp hiệu suất tăng đáng kể cho bộ lưu trữ dựa trên đĩa cứng cũ. Cụ thể, GPU có khả năng mở rộng đáng kể
và nhanh hơn CPU trong khi số lượng lõi lớn của chúng cho phép thực hiện song song các luồng đồng thời. Sự song song này dẫn đến
khả năng đào tạo và suy luận tăng tốc cho các ứng dụng AI / DL.

Tuy nhiên, để GPU thực hiện lời hứa tăng tốc, dữ liệu phải được xử lý và gửi đến các ứng dụng AI cơ bản
với tốc độ lớn, khả năng mở rộng và độ trễ thấp liên tục. Điều này đòi hỏi một nền tảng lưu trữ I / O song song về khả năng mở rộng hiệu suất, phân phối dữ liệu thời gian thực và phương tiện flash cho tốc độ. Không có nền tảng lưu trữ dữ liệu phù hợp, một nền tảng điện toán dựa trên GPU cũng bị tắc nghẽn và thiếu như một trung tâm dữ liệu không hỗ trợ AI truyền thống. Sự lựa chọn đúng đắn của nền tảng lưu trữ dữ liệu và tích hợp hiệu quả của nó trong cơ sở hạ tầng trung tâm dữ liệu là những yếu tố chính để loại bỏ tắc nghẽn AI và thực sự tăng tốc thời gian để hiểu sâu hơn.

Hệ thống lưu trữ dữ liệu phù hợp phải cung cấp thông lượng cao, IOPS cao và đồng thời cao để tránh việc không sử dụng chu kỳ GPU quý giá.
Nó phải linh hoạt và có thể mở rộng khi triển khai và cho phép xử lý hiệu quả một phạm vi rộng về kích thước và loại dữ liệu, bao gồm cả truyền phát ngẫu nhiên đồng thời cao, một thuộc tính tập dữ liệu DL điển hình.

Được lựa chọn và triển khai đúng cách, một hệ thống lưu trữ dữ liệu như vậy sẽ cung cấp tiềm năng đầy đủ của các nền tảng điện toán GPU, tăng tốc độ hiểu biết
ở mọi quy mô, xử lý dễ dàng mọi giai đoạn của quy trình AI và DL, và làm như vậy một cách đáng tin cậy, hiệu quả và tiết kiệm chi phí .

GPU cung cấp một nền tảng mạnh mẽ cho AI. Số lượng lõi lớn của họ cung cấp một cơ sở tính toán song song lớn có thể xử lý đồng thời lượng dữ liệu rất lớn . Để đạt được tiềm năng đầy đủ của các ứng dụng AI và DL và tối đa hóa lợi ích của GPU, độ bão hòa dữ liệu của tất cả các lõi phải đạt được và duy trì. Việc thực hiện yêu cầu này đối với nhiều GPU đồng thời đặt ra một thách thức kỹ thuật quan trọng.

Cần cung cấp một nền tảng lưu trữ chia sẻ có khả năng mở rộng cao, tích hợp dễ dàng với môi trường điện toán đa GPU, trong khi
vẫn duy trì độ bão hòa dữ liệu đồng thời. Nền tảng có thể bắt đầu nhỏ trong khi vẫn cung cấp hiệu suất cần thiết cho bão hòa GPU và quy mô liền mạch về hiệu suất, công suất và khả năng. Khi các bộ dữ liệu phát triển và các GPU bổ sung được triển khai, điều quan trọng là liên tục cung cấp một giải pháp tối ưu, cực kỳ hiệu quả. Kiến trúc và giao thức song song sẽ cung cấp dữ liệu với thông lượng cao, độ trễ thấp và đồng thời lớn. Nó cũng sẽ cung cấp hiệu suất tăng cho các khung DL và cung cấp xử lý nhanh hơn đáng kể so với NFS.

Cơ sở hạ tầng AI được tối ưu hóa để hỗ trợ cho các ứng dụng trong thế giới thực

Nhiều tổ chức đã trở nên cố thủ hơn trong việc điều hành workload trong thế giới thực và các ứng dụng trong thế giới thực dựa trên AI và DL. Dưới đây là một số ví dụ về các cách đã được chứng minh lưu trữ tối ưu hóa giải quyết các thách thức AI:

  • Bán lẻ hỗ trợ AI – triển khai và quản lý các giải pháp dữ liệu trên hàng ngàn thanh toán tự động, từ xa
  • Dịch vụ tài chính – thể hiện sự siêng năng và tuân thủ các quy định xung quanh dữ liệu khách hàng
  • Xử lý ngôn ngữ – đảm bảo trải nghiệm thời gian thực trong thời gian tải cao điểm
  • Xe tự hành – quản lý hàng trăm petabyte dữ liệu được phân phối trên toàn cầu
  • Khoa học đời sống và chăm sóc sức khỏe – trích xuất giá trị an toàn từ dữ liệu bệnh nhân trong thời gian thực
  • HPC – tích hợp HPC với AI và tăng tốc workload HPC và AI khó khăn

Các giải pháp lưu trữ được tối ưu hóa hoạt động để đáp ứng dễ dàng vòng đời của nền tảng AI hoàn chỉnh như trong hình trên. Quy trình làm việc AI được tối ưu hóa hoàn toàn đồng thời, liên tục và tại chỗ.


Các hệ thống lưu trữ chuyên dùng cho AI / Deep Learning

Xem thêm:
→ Giải pháp lưu trữ cho AI / Deep Learning
Máy chủ hỗ trợ lưu trữ NVMe tốc độ I/O cao


 

Liên hệ tác giả