Lưu trữ cho AI: Machine Learning, Deep Learning và các nhu cầu về lưu trữ

Facebook đạt xấp xỉ 2,4 tỷ active user và có 350 triệu lượt upload ảnh lên mỗi ngày, cộng với hơn 500.000 bình luận được đăng mỗi phút. Làm thế nào họ theo dõi, giám sát và thu được giá trị từ lượng thông tin này?

Chirag Dekate, giám đốc nghiên cứu về trí tuệ nhân tạo (AI), Machine Learning và Deep Learning tại Gartner cho biết: “Có hàng tỷ người dùng và không có cách nào để bàn tay con người có thể mở rộng quy mô để thực hiện phân tích .

Vì vậy, Facebook sử dụng hệ thống học tập và AI để quét các bài đăng. Dekate nói: “Không nhân viên nào có thể phân tích mọi video hoặc hình ảnh để tìm những câu nói bị cấm hoặc tài liệu kích động, hoặc các tag có chủ ý bán hàng sai mục đích”.

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI

Các trang mạng xã hội chỉ là một ví dụ về số lượng ứng dụng ngày càng tăng của AI, đã chuyển từ nghiên cứu ở giai đoạn học thuật sang các lĩnh vực đa dạng như y học, thực thi pháp luật , bảo hiểm và bán lẻ.

Sự tăng trưởng của nó có ý nghĩa sâu rộng đối với các hệ thống CNTT doanh nghiệp, bao gồm cả lưu trữ dữ liệu.

AI là một thuật ngữ rộng bao gồm nhiều trường hợp sử dụng và ứng dụng, cũng như các cách xử lý dữ liệu khác nhau. Machine Learning, Deep Learning và mạng nơ-ron đều có các yêu cầu phần cứng và phần mềm riêng và sử dụng dữ liệu theo những cách khác nhau.

Mike Leone, nhà phân tích cấp cao của ESG cho biết: “Machine Learning là một tập con của AI và Deep Learning là một tập con của Machine Learning”.

Ví dụ: Deep Learning sẽ thực hiện một số lần chuyển tập dữ liệu để đưa ra quyết định và học hỏi từ các dự đoán của nó dựa trên dữ liệu mà nó đọc được.

Machine Learning đơn giản hơn và dựa vào các thuật toán do con người viết và đào tạo với dữ liệu đã biết để phát triển khả năng đưa ra dự đoán. Nếu kết quả không chính xác, các nhà khoa học dữ liệu sẽ thay đổi các thuật toán và đào tạo lại mô hình.

Một ứng dụng Machine Learning có thể lấy dữ liệu từ hàng nghìn điểm dữ liệu. Một tập dữ liệu ứng dụng Deep Learning sẽ là một yêu cầu lớn hơn, dễ dàng đến với hàng triệu điểm dữ liệu.

Leone cho biết: “Deep Learning hoạt động tương tự như não người ở chỗ nó bao gồm nhiều lớp liên kết với nhau tương tự như các tế bào thần kinh trong não. Dựa trên độ chính xác hoặc không chính xác của các dự đoán, nó có thể tự động học lại hoặc tự điều chỉnh cách học từ dữ liệu .”

Lưu trữ cho AI có thể khác nhau

Yêu cầu lưu trữ dữ liệu cho AI rất khác nhau tùy theo ứng dụng và tài liệu nguồn. Dekate nói: “Tùy thuộc vào từng trường hợp sử dụng, tập dữ liệu thay đổi khá nhiều. Trong lĩnh vực hình ảnh, nó phát triển gần như theo cấp số nhân khi các file có khuynh hướng rất lớn”.

“Bất cứ khi nào bạn thực hiện nhận dạng hình ảnh hoặc nhận dạng video hoặc hệ thống thần kinh, bạn sẽ cần kiến trúc mới và khả năng mới. Nhưng trong một trường hợp sử dụng như phát hiện gian lận, bạn có thể sử dụng “infrastructure stack” mà không cần phần cứng mới để có kết quả đáng kỳ diệu”.

Dữ liệu y tế, khoa học và địa chất, cũng như các tập dữ liệu hình ảnh được sử dụng trong lĩnh vực tình báo và quốc phòng, thường kết hợp khối lượng lưu trữ quy mô petabyte với kích thước file riêng lẻ trong phạm vi gigabyte.

Ngược lại, dữ liệu được sử dụng trong các lĩnh vực như phân tích chuỗi cung ứng hoặc bảo trì, sửa chữa và đại tu trong hàng không – hai lĩnh vực đang phát triển của AI – thì nhỏ hơn nhiều.

Theo Dekate của Gartner, một tập dữ liệu point-of-sale, được sử dụng để dự đoán phân loại bán lẻ, thường đạt tới 100MB đến 200MB, trong khi một máy bay hiện đại, được trang bị cảm biến sẽ tạo ra 50GB đến 100GB dữ liệu vận hành và bảo trì trên mỗi chuyến bay.

CPU, GPU và I/O

Vấn đề đối với các hệ thống AI là chúng cần xử lý dữ liệu nhanh như thế nào. Trong lĩnh vực hàng không, dữ liệu bảo trì dự đoán phải được phân tích khi máy bay đang ở trên mặt đất, với thời gian quay vòng từ vài giờ đối với chuyến bay đường dài đến chỉ vài phút đối với hãng hàng không giá rẻ.

Trong khi đó, một hệ thống nhận dạng khuôn mặt hoặc biển số thì nhu cầu cần một câu trả lời trong tích tắc và một hệ thống bồi thường bảo hiểm tự động thì trong vài phút.

Điều này đã thúc đẩy các nhà phát triển AI xây dựng các cụm tích hợp GPU, đây là cách hiệu quả nhất để xử lý dữ liệu và chạy các thuật toán phức tạp với tốc độ nhanh. Nhưng các cụm GPU này – thường dựa trên phần cứng điện toán GPU NVidia DGX – đắt tiền và chỉ có sẵn với số lượng nhỏ.

Như Alastair McAulay, một chuyên gia CNTT tại PA Consulting, chỉ ra rằng, các hệ thống máy tính hiệu suất cao (HPC) trong học tập và công nghiệp thường chạy với tỷ lệ sử dụng rất cao vì sự khan hiếm và chi phí của chúng.

Các viện nghiên cứu tuyển dụng các chuyên gia để giảm hiệu suất cuối cùng từ phần cứng. Trong doanh nghiệp, việc tích hợp với các hệ thống dữ liệu hiện có có thể quan trọng hơn.

NVMe là phương tiện được lựa chọn

McAulay cho biết: “Chúng tôi thấy việc áp dụng hợp lý loại lưu trữ thể rắn mang lại lợi ích to lớn. Nhưng nó thiên về việc sử dụng file system nào, cách tối ưu hóa hệ thống đó và liệu có cần bất kỳ bộ tăng tốc nào để khai thác tối đa phần cứng lưu trữ [có sẵn] hay không. Họ đang nỗ lực nhiều nhất vào file system và quản lý dữ liệu ”.

Lưu trữ flash hiện đã phổ biến, trong khi flash NVMe đang nổi lên như một phương tiện được lựa chọn cho các ứng dụng yêu cầu truy cập nhanh nhất cho dữ liệu được lưu trữ gần GPU. Ổ cứng quay cơ học vẫn còn đó, nhưng đang ngày càng bị xếp vào vùng lưu trữ dung lượng lớn ở các cấp thấp hơn.

Josh Goldenhar, phó chủ tịch của nhà cung cấp lưu trữ tập trung NVMe Excelero, cho biết PCIe bus của hệ thống và dung lượng lưu trữ hạn chế trong các máy chủ có GPU dày đặc có thể là một hạn chế lớn hơn so với vấn đề tốc độ lưu trữ.

Tuy nhiên, một quan niệm sai lầm phổ biến là các hệ thống AI cần lưu trữ với hiệu suất IOPS cao, trong khi trên thực tế, khả năng xử lý các I/O ngẫu nhiên mới là điều quan trọng.

Dekate của Gartner nói: “Nếu bạn phân tích deep learning, nó sẽ được đọc ngẫu nhiên nhiều hơn trong khi kết quả đầu ra không đáng kể – nó có thể chỉ ở vài kilobyte. Không nhất thiết phải cần đến IOPS cao, mà là kiến trúc được tối ưu hóa đọc ngẫu nhiên.”

Các giai đoạn AI và nhu cầu I/O

Yêu cầu lưu trữ và I/O của AI không giống nhau trong suốt vòng đời của nó.

Các hệ thống AI thông thường cần được đào tạo và trong giai đoạn đó, chúng sẽ sử dụng nhiều I/O hơn, đó là nơi chúng có thể sử dụng flash và NVMe. Tuy nhiên, giai đoạn “suy luận” sẽ dựa nhiều hơn vào các tài nguyên máy tính.

Các hệ thống Deep Learning, với khả năng tự đào tạo lại khi hoạt động, cần truy cập liên tục vào dữ liệu.

Doug O’Flaherty, giám đốc của IBM Storage, cho biết: “Khi một số nơi nói về việc lưu trữ cho Machine Learning / Deep Learning, họ thường chỉ muốn nói đến việc đào tạo cho các mô hình, đòi hỏi băng thông rất cao để giữ cho GPU luôn bận rộn.

“Tuy nhiên, năng suất thực sự đạt được đối với nhóm khoa học dữ liệu là quản lý toàn bộ data pipeline AI từ đầu vào cho đến suy luận.”

Về phần chúng, kết quả đầu ra của một chương trình AI thường đủ nhỏ để chúng không phải là vấn đề đối với các hệ thống CNTT doanh nghiệp hiện đại. Điều này cho thấy rằng các hệ thống AI cần nhiều tầng lưu trữ và về mặt đó, chúng không khác với phân tích kinh doanh truyền thống hoặc thậm chí là lập kế hoạch nguồn lực doanh nghiệp ( ERP ) và các hệ thống cơ sở dữ liệu.

Justin Price, trưởng nhóm AI và nhà khoa học dữ liệu tại Logicalis UK, cho biết một hệ thống tại chỗ cần ít nhất hiệu suất của bộ lưu trữ SSD để mang lại giá trị thương mại. Nhưng các hệ thống AI cũng cần lưu trữ số lượng lớn và điều này chỉ ra việc quay đĩa cũng như sử dụng đám mây và thậm chí cả băng.

Chris Cummings, giám đốc tiếp thị tại nhà sản xuất lưu trữ được xác định bằng phần mềm Datera cho biết: “Mỗi node có thể khác nhau và bạn có thể sử dụng một môi trường hỗn hợp. Điều quan trọng là phải linh hoạt và phù hợp với yêu cầu của các ứng dụng khác nhau”.

“Nếu dữ liệu là ‘hot'(dùng thường xuyên), bạn phải lưu nó vào bộ nhớ cache NVMe, nhưng bạn cũng có thể chuyển nó ra ngoài ổ cứng flash”.

Lưu trữ đám mây cũng là một lựa chọn hấp dẫn cho các doanh nghiệp có khối lượng dữ liệu lớn. Yinglian Xie, Giám đốc điều hành của công ty phân tích Datavisor, cho biết điều này có thể được thực hiện, nhưng nó có nghĩa là di chuyển các công cụ AI đến nơi có dữ liệu. Hiện tại, AI dựa trên đám mây chỉ giới hạn ở các ứng dụng không dựa trên thế hệ GPU mới nhất.

Xie nói: “Bộ nhớ phụ thuộc vào trường hợp sử dụng và thuật toán cụ thể. “Đối với một số ứng dụng, chẳng hạn như Deep Learning, nó đòi hỏi sự chuyên sâu của máy tính. Vì vậy, chúng tôi thấy khách hàng sử dụng kiến trúc chuyên sâu về GPU. Mặt khác, đối với các ứng dụng chuyên về lưu trữ , tốt hơn hết là bạn nên đưa tính toán đến nơi chứa dữ liệu. ”

Vì vậy, các ứng dụng ít sử dụng GPU hơn là những ứng cử viên tiềm năng cho đám mây. Ví dụ, Google đã phát triển các chip dành riêng cho AI để hoạt động với cơ sở hạ tầng của mình. Tuy nhiên, như O’Flaherty của IBM cảnh báo, hiện tại đám mây, với các hạn chế về kỹ thuật và tài chính, có nhiều khả năng chỉ hỗ trợ cho AI hơn là khả năng cốt lõi của nó.

____
Bài viết liên quan