AI có thể tạo ra các trung tâm dữ liệu tự vận hành như thế nào?

Với sức nóng của trí tuệ nhân tạo (AI), phần lớn chủ đề thảo luận tập trung vào phương tiện tự lái, chatbots, công nghệ nhân bản kỹ thuật số (digital-twin), robot và việc sử dụng các hệ thống thông minh dựa trên AI để trích xuất thông tin hữu ích về kinh doanh từ các tập dữ liệu lớn. Nhưng AI và học máy (ML) một ngày nào đó sẽ đóng một vai trò quan trọng với các tủ rack máy chủ bên trong trung tâm dữ liệu doanh nghiệp.

Các trung tâm dữ liệu tiên phong trong ứng dụng AI đã đẩy mạnh việc tối ưu hóa mức tiêu thụ điện và hệ thống làm mát, tự động hóa các hoạt động bảo trì theo kế hoạch và cải thiện hiệu quả phân phối các workload trong các trung tâm dữ liệu doanh nghiệp.

Tiềm năng của AI trong việc tăng cường hiệu quả của trung tâm dữ liệu – cũng như trong việc mở rộng và cải thiện hoạt động kinh doanh – thuộc bốn loại chính:

  • Quản lý điện năng: Quản lý điện năng dựa trên AI có thể giúp tối ưu hóa hệ thống làm mát, có thể cắt giảm chi phí điện năng, giảm số lượng nhân viên và nâng cao hiệu quả hoạt động. Các nhà cung cấp đại diện trong lĩnh vực này bao gồm Schneider Electric, Siemens, Vertiv và Eaton Corp.
  • Quản lý thiết bị: Hệ thống AI có thể theo dõi tình trạng của máy chủ, bộ lưu trữ và thiết bị mạng, kiểm tra xem hệ thống có được cấu hình đúng hay không và dự đoán khi nào thiết bị sắp hư hỏng. Theo Gartner, các nhà cung cấp trong danh mục quản lý cơ sở hạ tầng CNTT AIOps (ITIM) bao gồm OpsRamp, Datadog, Virtana, ScienceLogic và Zenoss.
  • Quản lý khối lượng công việc (workload): Hệ thống AI có thể tự động hóa việc di chuyển các workload tới cơ sở hạ tầng hiệu quả nhất trong thời gian thực, cả bên trong trung tâm dữ liệu và trong môi trường đám mây lai (hybrid cloud), giữa môi trường tại chỗ, đám mây và môi trường ngoài rìa mạng. Ngày càng có nhiều công ty nhỏ hơn cung cấp tính năng tối ưu hóa workload dựa trên AI, bao gồm Redwood, Tidal Automation và Ignio. Các đối thủ lớn như Cisco, IBM và VMware cũng có các dịch vụ tương tự.
  • Bảo mật: Các công cụ AI có thể ‘tìm hiểu’ lưu lượng mạng bình thường trông như thế nào, phát hiện những điểm bất thường, ưu tiên những cảnh báo nào cần sự chú ý của các nhà bảo mật, giúp phân tích sau sự cố về những gì đã xảy ra và đưa ra các khuyến nghị để bổ sung các lỗ hổng bảo vệ an ninh cho doanh nghiệp. Các nhà cung cấp cung cấp khả năng này bao gồm VectraAI, Darktrace, ExtraHop và Cisco.

Tổng hợp tất cả lại với nhau và với tầm nhìn là AI có thể giúp các doanh nghiệp tạo ra các trung tâm dữ liệu tự động hóa, an toàn, tự phục hồi cao, yêu cầu rất ít sự can thiệp của con người và chỉ cần chạy ở mức hiệu quả, trong khi khả năng phục hồi tốt nhất.

“Tự động hóa bằng AI, hay AI automation, có thể mở rộng quy mô để trích xuất dữ liệu ở các cấp độ vượt quá khả năng của con người, thu thập thông tin cần thiết để tối ưu hóa việc sử dụng năng lượng, phân phối workload và tối đa hóa hiệu quả để đạt được mức sử dụng tài sản trung tâm dữ liệu cao hơn”, Said Tabet, kỹ sư chuyên trách của Dell Technologies.

Tất nhiên, cũng như những hứa hẹn về ô tô tự lái, trung tâm dữ liệu tự lái vẫn chưa hiện diện một cách chính thức. Có những rào cản đáng kể về kỹ thuật, vận hành và nhân sự đang cản trở sự bứt phá của AI trong trung tâm dữ liệu. Ngày nay việc áp dụng còn nhỏ giọt, nhưng những lợi ích tiềm năng sẽ khiến các doanh nghiệp phải tìm kiếm cơ hội để dịch chuyển.

Từ Quản lý nguồn điện chuyển qua Quản lý workload của máy chủ

Các trung tâm dữ liệu được ước tính tiêu thụ 3% nguồn cung cấp điện toàn cầu và gây ra khoảng 2% lượng khí thải nhà kính, vì vậy không có gì ngạc nhiên khi rất nhiều doanh nghiệp đang xem xét kỹ lưỡng việc quản lý điện năng của trung tâm dữ liệu, để tiết kiệm tiền và thể hiện trách nhiệm với môi trường.

Daniel Bizo, nhà phân tích cấp cao tại 451 Research, cho biết các hệ thống dựa trên AI có thể giúp các nhà điều hành trung tâm dữ liệu hiểu được các vấn đề làm mát hiện tại hoặc tiềm ẩn, chẳng hạn như phân phối không khí lạnh không đủ, chẳng hạn như một tủ rack mật độ cao chặn luồng không khí, thiết bị HVAC hoạt động kém hiệu quả, hoặc không đủ khí ngăn giữa lối đi nóng và lạnh.

Bizo nói rằng AI hứa hẹn sẽ mang lại những lợi ích “vượt xa những gì có thể với thiết kế cơ sở vật chất tốt hơn”. Hệ thống AI “có thể tìm hiểu toàn bộ cơ sở vật chất bằng cách đối chiếu dữ liệu hệ thống HVAC và các chỉ số cảm quan về môi trường” trên tầng trung tâm dữ liệu.

Greg Schulz, người sáng lập công ty tư vấn và cố vấn CNTT StorageIO, cho biết thêm: Quản lý nguồn điện đơn thuần thì chỉ nhận được thành quả thấp. “Ngày nay, nó phải là về việc quản lý năng suất, về việc hoàn thành nhiều công việc hơn trên mỗi BTU, hoàn thành nhiều công việc hơn trên mỗi watt điện năng, nghĩa là làm việc thông minh hơn và thiết bị hoạt động thông minh hơn”.

Ngoài ra còn ở góc độ lập kế hoạch về sức chứa, không gian trống. Ngoài việc tìm kiếm các điểm nóng và điểm mát, hệ thống AI có thể đảm bảo các trung tâm dữ liệu đang cấp nguồn cho số lượng máy chủ vật lý phù hợp và có khả năng sẵn sàng để lắp thêm các máy chủ vật lý mới nếu có nhu cầu đột biến tạm thời. .

Schulz cho biết thêm rằng các công cụ quản lý điện năng đang phát triển kết nối với các hệ thống quản lý thiết bị và workload. Ví dụ: nếu các cảm biến phát hiện máy chủ đang chạy quá nóng, hệ thống có thể nhanh chóng và tự động di chuyển workload sang một máy chủ hoạt động ít hơn để tránh tình trạng ngừng hoạt động tiềm ẩn có thể ảnh hưởng đến các ứng dụng quan trọng. Sau đó, hệ thống có thể điều tra nguyên nhân khiến máy chủ quá nóng – đó có thể là quạt bị lỗi (sự cố HVAC), một thành phần vật lý sắp hỏng (sự cố thiết bị) hoặc có thể máy chủ vừa bị quá tải (một vấn đề của workload).

Giám sát sức khỏe thiết bị dựa trên AI, giám sát quản lý cấu hình

Trung tâm dữ liệu có đầy các thiết bị vật lý cần được bảo trì thường xuyên. Hệ thống AI có thể vượt xa hơn vấn đề bảo trì theo lịch trình để hỗ trợ thu thập, phân tích dữ liệu telemetry, có thể xác định các khu vực cụ thể cần được chú ý ngay lập tức. Schulz cho biết: “Các công cụ AI có thể quét qua tất cả dữ liệu đó và xác định các hình mẫu nghi ngờ, hoặc các điểm bất thường”.

Bizo cho biết thêm: “Việc theo dõi sức khỏe bắt đầu bằng việc kiểm tra xem thiết bị có được cấu hình chính xác và hoạt động như mong đợi hay không. Với hàng trăm hoặc thậm chí hàng nghìn tủ rack với hàng chục nghìn thành phần, những công việc thông thường như vậy có thể tốn nhiều công sức và do đó không phải lúc nào cũng được thực hiện kịp thời và triệt để”.

Ông chỉ ra rằng mô hình dự đoán các hư hỏng của thiết bị dựa trên nhật ký dữ liệu hiện trạng có thể “phát hiện một thành phần đang bị lỗi và đánh giá xem liệu nó có cần bảo trì ngay tức thì hay không để tránh bất cứ sự cố nào có thể gây ra ngừng hoạt động”.

Michael Bushong, phó chủ tịch doanh nghiệp và tiếp thị đám mây tại Juniper Networks, lập luận rằng các nhà điều hành trung tâm dữ liệu doanh nghiệp nên bỏ qua một số đồn thổi quá mức liên quan đến AI và tập trung vào cái mà ông gọi là “những đổi mới nhàm chán”.

Đúng vậy, một ngày nào đó, hệ thống AI có thể “cho tôi biết điều gì sai và sửa chữa nó”, nhưng tại thời điểm này, nhiều nhà điều hành trung tâm dữ liệu đang giải quyết câu chuyện “nếu có gì sai, hãy cho tôi biết nơi để xem xét”, Bushong nói.

Lập bản đồ phụ thuộc cũng là một lĩnh vực quan trọng, nhưng không đặc biệt thú vị nơi AI có thể hữu ích. Nếu các nhà quản lý trung tâm dữ liệu thực hiện thay đổi chính sách đối với tường lửa hoặc các thiết bị khác, thì hậu quả không mong muốn có thể là gì? “Nếu tôi đề xuất một sự thay đổi, sẽ rất hữu ích nếu biết những gì có thể nằm trong bán kính ảnh hưởng của sự cố nếu có”, Bushong nói.

Một khía cạnh quan trọng khác của việc giữ cho thiết bị hoạt động trơn tru và an toàn là kiểm soát một thứ gọi là “trôi cấu hình” (configuration drift), một thuật ngữ trung tâm dữ liệu để chỉ cách mà cấu hình đột xuất thay đổi theo thời gian có thể tạo ra vấn đề. Bushong cho biết AI có thể được sử dụng như “một biện pháp kiểm tra an toàn bổ sung” để xác định các vấn đề sắp xảy ra ở trung tâm dữ liệu dựa trên cấu hình.

AI và bảo mật

Theo Bizo, AI và máy học “có thể đơn giản hóa việc xử lý sự vụ (phản ứng với sự cố) bằng cách thực hiện phân loại nhanh chóng và phân nhóm các sự kiện để xác định những sự kiện quan trọng và tách chúng khỏi mớ hỗn độn. Phân tích nguyên nhân gốc rễ nhanh hơn giúp người vận hành đưa ra quyết định sáng suốt và thực hiện hành động trên chúng”.

Schulz cho biết thêm, AI có thể đặc biệt hữu ích trong việc phát hiện xâm nhập theo thời gian thực. Các hệ thống dựa trên AI có thể phát hiện, ngăn chặn và cô lập các mối đe dọa, sau đó có thể quay lại và tiến hành điều tra chi tiết để xác định chính xác điều gì đã xảy ra và những lỗ hổng nào mà hacker có thể đã khai thác.

Các chuyên gia bảo mật làm việc trong một trung tâm hoạt động bảo mật (SOC) đôi khi bị quá tải với các cảnh báo, nhưng các hệ thống dựa trên AI có thể quét qua một lượng lớn dữ liệu đo đạc từ xa và thông tin nhật ký, xóa các nhiệm vụ thông thường khỏi dashboard, cho phép các chuyên gia bảo mật được giải phóng để xử lý các phân tích sâu hơn.

Tối ưu hóa khối lượng công việc dựa trên AI

Ở lớp ứng dụng, AI có tiềm năng tự động hóa việc di chuyển các workload đến điểm lưu trú thích hợp hơn, dù đó là tại chỗ hay trên đám mây. Bizo nói: “AI / ML trong tương lai sẽ đưa ra quyết định trong thời gian thực về vị trí đặt các workload dựa trên vô số các thông số kỹ thuật về hiệu suất, chi phí, quản trị, bảo mật, rủi ro và tính bền vững.

Ví dụ: workload có thể được tự động di chuyển đến các máy chủ tiết kiệm điện nhất, đồng thời đảm bảo rằng các máy chủ hoạt động ở hiệu suất cao nhất, tức là 70-80% hiệu suất sử dụng. Hệ thống AI có thể tích hợp dữ liệu hiệu suất vào phương trình tính toán, vì vậy các ứng dụng nhạy cảm với thời gian đang chạy trên các máy chủ hiệu suất cao, đồng thời đảm bảo rằng năng lượng dư thừa không bị đốt cháy trên các ứng dụng không yêu cầu thực thi nhanh, Bizo nói.

Việc tối ưu hóa workload dựa trên AI đã lọt vào mắt xanh của các nhà nghiên cứu MIT, năm ngoái họ đã công bố rằng họ đã phát triển một hệ thống AI tự động học cách lên lịch các hoạt động xử lý dữ liệu trên hàng nghìn máy chủ.

Tuy nhiên, như Bushong chỉ ra, thực tế là việc tối ưu hóa workload ngày nay là lãnh địa riêng của những nhà cung cấp khổng lồ, hyperscale như Amazon, Google và Azure, chứ không phải trung tâm dữ liệu doanh nghiệp bình thường. Và có một số lý do cho điều đó.

Những thách thức khi triển khai AI

Tối ưu hóa và tự động hóa trung tâm dữ liệu là một phần không thể thiếu trong các sáng kiến ​​chuyển đổi kỹ thuật số đang diễn ra. Tabet, từ Dell Technologies, cho biết thêm rằng “với COVID-19, nhiều công ty hiện đang xem xét tự động hóa hơn nữa, thúc đẩy các ý tưởng về ‘trung tâm dữ liệu kỹ thuật số’ được điều khiển bởi AI và có khả năng tự phục hồi”.

Vào năm 2018, Google đã thông báo rằng họ đã chuyển quyền kiểm soát hệ thống làm mát của mình trong một số trung tâm dữ liệu hyperscale sang một hệ thống AI và công ty cho biết rằng các đề xuất do thuật toán AI cung cấp giúp giảm 40% mức sử dụng năng lượng.

Tuy nhiên, đối với các công ty không phải Google, AI trong trung tâm dữ liệu “phần lớn là nằm trong tham vọng”, Bizo nói. “Một số tính năng AI / ML có sẵn trong xử lý sự kiện, tình trạng cơ sở hạ tầng và tối ưu hóa làm mát. Nhưng sẽ mất nhiều năm nữa trước khi các mô hình AI / ML đạt được những đột phá rõ ràng hơn những gì có thể với Quản lý cơ sở hạ tầng trung tâm dữ liệu (DCIM ) tiêu chuẩn ngày nay. Giống như với Việc phát triển xe tự hành, những giai đoạn đầu có thể rất thú vị, nhưng vẫn còn xa so với ứng dụng kinh doanh đột phá cuối cùng mà nó hứa hẹn”.

Theo Tabet, một số rào cản là “những người phù hợp cần được thuê hoặc đào tạo để quản lý hệ thống. Một vấn đề khác cần lưu ý là nhu cầu về các tiêu chuẩn dữ liệu và các kiến ​​trúc liên quan”.

Gartner nói rằng: “Sự trưởng thành của nền tảng AIOps, kỹ năng CNTT và vận hành thuần thục là những yếu tố kìm hãm chính. Những thách thức mới khác đối với việc triển khai nâng cao bao gồm chất lượng dữ liệu và thiếu kỹ năng khoa học dữ liệu” trong các nhóm vận hành và cơ sở hạ tầng CNTT.

Bushong cho biết thêm rằng rào cản lớn nhất luôn là con người. Ông chỉ ra rằng việc ra ngoài và thuê các nhà khoa học dữ liệu là một thách thức đối với nhiều doanh nghiệp và việc đào tạo nhân viên hiện tại cũng là một trở ngại.

Thêm vào đó, có một lịch sử lâu dài về việc nhân viên chống lại các công nghệ vượt khỏi tầm tay của họ, Bushong nói. Ông lưu ý rằng mạng do phần mềm định nghĩa (Software-defined Network, SDN) đã tồn tại được một thập kỷ, nhưng hơn 3/4 hoạt động CNTT vẫn dựa trên CLI.

Bushong nói: “Chúng ta phải tin rằng các nhà khai thác trên tất cả các phương thức cơ sở hạ tầng đã sẵn sàng để từ bỏ quyền kiểm soát cho AI. ‘Nếu một nhóm người chưa tin tưởng những người kiểm soát để đưa ra quyết định, thì bạn làm thế nào để đào tạo, giáo dục và thuyết phục một nhóm người để tạo ra sự chuyển đổi quy mô lớn này khi thái độ phổ biến trong ngành là: Nếu tôi làm điều này, tôi sẽ mất việc?'”.

Đó là lý do tại sao Bushong gợi ý rằng các doanh nghiệp nên thực hiện những bước nhỏ và trông nhàm chán đối với AI và không bị cuốn vào những lời quảng cáo thổi phồng thường xuất hiện xung quanh một công nghệ mới.

Liên hệ tác giả