Tầm quan trọng của khả năng phục hồi và quản lý cluster trong ROBO HCI 

Giải pháp Dell EMC cho Microsoft Azure Stack HCI

Việc triển khai và quản lý liên tục các tài nguyên máy tính trong các văn phòng nhỏ và môi trường văn phòng từ xa / chi nhánh (Remote Office/Branch Office – ROBO) luôn có vấn đề, với nhiều yếu tố cạnh tranh và khác biệt. Nhiều doanh nghiệp lớn, cũng như các doanh nghiệp SMB, phụ thuộc vào hệ thống ROBO HCI để xử lý các giao dịch quan trọng hàng ngày vốn là mạch máu của công ty. Các hệ thống này cần phải có chi phí thấp nhưng hiệu suất tối ưu, cung cấp khả năng dự phòng nhưng có ít thành phần nhất có thể và được bảo trì tốt, nhưng lại không có nguồn lực IT mạnh và dành riêng cho từng site.

May mắn là các hãng cung cấp giải pháp CNTT đã nhận ra những thách thức đặc thù của hệ thống ROBO và đã đưa ra các giải pháp để giải quyết chúng. Trong bài viết này, chúng ta sẽ xem xét cách các hệ thống của Dell Technologies chạy phần mềm Microsoft giải quyết những thách thức này.

Giới thiệu hệ thống ROBO HCI

Hệ thống mà chúng ta sẽ xem xét trong bài viết này là một cụm Dell EMC Solutions cho Microsoft Azure Stack HCI với 2 node AX chạy Windows Server 2019 (2NC). Đầu năm nay, Dell Technologies đã phát hành các node AX được thiết kế đặc biệt (có xác thực và chứng nhận) để chạy Azure Stack HCI. Dell Technologies hiện cung cấp ba loại node khác nhau trong danh mục giải pháp của họ: AX-640, AX-740xd và AX-6515. Mỗi mô hình này cung cấp cho khách hàng khả năng thiết kế nền tảng lý tưởng cho việc triển khai ROBO HCI của họ thông qua cấu hình với các thành phần khác nhau.

Khuyến mãi máy chủ Dell PowerEdge

Các node AX-640 và AX-740xd là các node dual-socket sử dụng bộ xử lý Intel Xeon Scalable Gen 2, trong khi AX-6515 là một node một socket chạy bộ xử lý AMD EPYC 64 core Gen 2. Các model AX của Dell EMC cho phép khách hàng chọn các node phù hợp nhất với ứng dụng của họ. AX-640 dành cho khối lượng công việc có mật độ xử lý cao, AX-740xd dành cho khối lượng công việc nặng về dung lượng lưu trữ và AX-6515 dành cho người dùng yêu cầu hệ thống tối ưu hóa về giá trị và đa dạng hóa bộ xử lý trong trung tâm dữ liệu doanh nghiệp của họ.

Góc phía trước của Dell EMC Azure

Hệ thống mà chúng ta sẽ xem xét kỹ hơn trong bài viết này là AX-640, một node 1U ổ cắm kép hỗ trợ 96-768GB RAM. Nó có thể được định cấu hình với 3 đến 92TB dung lượng lưu trữ NVMeSSD và / hoặc HDD để tạo ra bộ lưu trữ hỗn hợp hoặc all-flash. Nó hiện là node duy nhất trong danh mục AX hỗ trợ các thiết bị SSD và bộ nhớ dài hạn Optane DC hiệu suất cực cao của Intel . Khi được cấu hình đúng cách, node AX-640 là ứng cử viên cực tốt cho danh hiệu node HCI nhanh nhất hiện có trên thị trường. Dell Technologies đưa ra một bảng tham khảo đầy đủ phác thảo các tùy chọn cấu hình Azure Stack HCI cho các node AX của họ.

Node AX-640 mà chúng tôi sẽ sử dụng trong bài viết này được trang bị 2x CPU Intel Xeon 6230, 384GB bộ nhớ DDR4, cùng với 10 ổ SSD NVMe 4TB.

Có phần cứng đáng tin cậy và hiệu suất tốt chỉ là một nửa câu chuyện khi triển khai giải pháp ROBO HCI; nửa còn lại là phần mềm. Trong trường hợp này, chúng tôi sẽ chạy hệ thống được xác thực Azure Stack HCI. Azure Stack HCI cho phép khách hàng chạy HĐH Windows Server với lợi ích bổ sung là kết nối liền mạch với Azure Cloud để có các dịch vụ bổ sung (chẳng hạn như sao lưu và khôi phục sau thảm họa) thông qua Microsoft Windows Admin Center. Các dịch vụ Azure được tích hợp thông qua các phần mở rộng WAC từ cùng một giao diện quản lý.

Azure Stack HCI sử dụng Hyper-V cho hypervisor và Storage Spaces Direct để lưu trữ cục bộ. Sử dụng 2NC để triển khai ROBO HCI có thể giảm đáng kể chi phí triển khai. Đối với các thiết lập chú trọng về chi phí, nó có thể được cấu hình để hoạt động trong cấu hình 2NC mà không cần chuyển đổi trong cấu hình liên kết đơn hoặc liên kết kép cho kết cấu lưu trữ của nó. Đối với thiết lập chuyển mạch, mạng 10GbE đủ tốt để làm việc. Dell Technologies khuyến nghị mạng lưu trữ 25GbE vì nó sẽ không đắt hơn nhiều so với mạng 10GbE.

Rõ ràng, việc giảm bớt chi tiêu mà một công ty đầu tư vào thiết bị không phải là nơi để bắt đầu nếu hệ thống không có khả năng phục hồi. Trên cơ sở từng hệ thống, Storage Spaces Direct hỗ trợ sao chép hai chiều và ba chiều và mã hóa xóa chẵn lẻ đơn và kép. Microsoft đã làm rất tốt việc ghi lại hiệu quả lưu trữ cũng như các ưu điểm chung và sự cân bằng của các phương án bảo vệ khác nhau này. Chúng tôi khuyên bạn nên đọc qua để quyết định xem chương trình nào sẽ phù hợp nhất với môi trường của bạn. Thiết lập mirroring thường là hoạt động tốt nhất, đó là những gì chúng tôi đã sử dụng trong thử nghiệm của mình.

Azure Stack HCI có thể sử dụng tính năng nested-mirroring hai chiều hoặc nested mirror-accelerated parity làm một tùy chọn cho khả năng phục hồi. Cái đầu cung cấp hiệu suất tốt hơn và cái sau cho phép hiệu quả dữ liệu cao hơn. Nested mirror-accelerated parity tạo ra một bản copy RAID 1 của dữ liệu trên máy chủ và trên node khác. Nested mirror-accelerated parity tạo bản sao dữ liệu trên mỗi máy chủ nhưng sử dụng mã hóa xóa, thay vì RAID 1, để phục hồi dữ liệu (ngoại trừ các lần ghi gần đây sử dụng  two-way mirroring để đảm bảo độ tin cậy). Nested two-way mirroring có tỷ lệ hiệu quả dữ liệu là 25% vì bốn bản sao của dữ liệu được ghi vào đĩa; so sánh, tính chẵn lẻ được tăng tốc phản chiếu lồng nhau có tỷ lệ hiệu quả dữ liệu từ 33% đến 40%.

Cả hai chương trình đều có khả năng hỗ trợ đồng thời lỗi ổ đĩa và lỗi máy chủ.

Cả hai lược đồ khả năng phục hồi lồng nhau đều không yêu cầu phần cứng RAID đặc biệt.

Cấu trúc liên kết Microsoft 2NC yêu cầu một thành phần chứng giám hoạt động như một bên thứ ba trung lập để thêm một điểm cho node còn sống để ngăn chặn tình huống “chia rẽ”. Bạn có thể sử dụng chia sẻ tệp (mà chúng tôi đã sử dụng trong thử nghiệm của mình) hoặc đám mây Azure làm thành phần chứng giám. Microsoft khuyến nghị cách sau nếu cả hai node trong cụm có kết nối internet tin cậy. Chứng giám đám mây Azure là một đối tượng blob storage trong khi chia sẻ tệp là SMB file share. Chứng giám chỉ chứa tệp nhật ký chứng giám.


Mua sắm và Triển khai ROBO HCI

Như đã hứa, chúng tôi muốn xem xét tổng thể những gì cần thiết để mua sắm, triển khai và quản lý một cụm node AX trong tình huống ROBO.

Bước đầu tiên khi triển khai một hệ thống mới là kích thước nó. Dell Technologies giúp dễ dàng tính toán thiết bị cần thiết để triển khai với Live Optics, một công cụ trực tuyến miễn phí được sử dụng để thu thập dữ liệu về hệ thống lưu trữ, bảo vệ dữ liệu, máy chủ và tệp của môi trường. Mặc dù nó có khả năng thu thập thông tin chi tiết về môi trường của bạn chỉ 24 giờ sau khi triển khai, bạn để Live Optics chạy càng lâu thì nó sẽ càng hiểu rõ hơn về các đặc điểm của khối lượng công việc mà bạn đang chạy. Live Optics có thể thu thập dữ liệu từ máy chủ Microsoft Windows, VMware vCenter hoặc Linux / Unix.

Bảng điều khiển Live Optics sẽ trình bày dữ liệu được thu thập đã biên dịch từ việc sử dụng CPU, bộ nhớ và lưu trữ của toàn bộ môi trường của bạn, tất cả đều sẽ cung cấp cho bạn bức tranh chính xác về loại hệ thống bạn sẽ cần trong môi trường của mình. Bạn cũng có thể chia sẻ dữ liệu này với những người dùng khác (ví dụ: đồng nghiệp, VAR, v.v.) nếu bạn muốn họ đưa ra các đề xuất về kích thước.

Dữ liệu thu thập được từ Live Optics được sử dụng trong công cụ bộ chỉnh Azure Stack HCI có sẵn thông qua nhóm tài khoản Dell Technologies. Công cụ sizer có tất cả các phương pháp hay nhất của Kỹ thuật được tích hợp để tạo ra các tùy chọn cấu hình không chỉ cho nhu cầu hiện tại của bạn mà còn có thể tính đến sự phát triển trong tương lai của bạn.

Một trong những vấn đề với môi trường ROBO là tìm kiếm tài năng CNTT tại địa phương để thiết lập và cấu hình chúng. Một cách để hoàn thành việc này là sử dụng Dịch vụ Dell EMC ProDeploy. Tùy chọn này giúp các tổ chức tăng tốc độ triển khai đến các trang từ xa, nghĩa là chúng đang trực tuyến và gia tăng giá trị ngay lập tức. Ngoài ra, nếu bạn có tài nguyên cục bộ và muốn tự triển khai, Dell có tài liệu và tập lệnh để hướng dẫn bạn thực hiện quy trình.

Một trong những vấn đề đau đầu nhất đối với bất kỳ tổ chức nào là hỗ trợ một hệ thống. Rất nhiều rắc rối liên quan đến việc hỗ trợ các hệ thống phức tạp là có nhiều nhà cung cấp phần cứng và phần mềm tham gia. Ví dụ: bạn có thể có một nhà cung cấp cung cấp máy chủ và bộ nhớ, một nhà cung cấp khác cung cấp thiết bị chuyển mạch mạng và một nhà cung cấp thứ ba cung cấp hệ điều hành. Dell EMC ProSupport đã giúp đơn giản hóa quy trình này bằng cách có nhân viên hỗ trợ chuyên dụng cho các giải pháp HCI của họ. Các kỹ sư hỗ trợ này được đào tạo và am hiểu về cả phần cứng và phần mềm của hệ thống Dell Azure Stack HCI và nếu cần, họ biết đúng người để báo cáo vấn đề.

Chúng tôi đã có cơ hội sử dụng nhân viên hỗ trợ tận tâm của Dell Technologies HCI khi chúng tôi vô tình định cấu hình sai hệ thống của mình khi cài đặt nó. Kỹ sư hỗ trợ mà chúng tôi đã làm việc rất hiểu biết và có thể giúp chúng tôi làm sáng tỏ mớ hỗn độn mà chúng tôi vướng vào.

Quản lý hàng ngày AX Node

Trong thế giới hoàn hảo, việc triển khai ROBO HCI sẽ không yêu cầu quản lý. Tuy nhiên, đó không phải là thực tế và Dell Technologies và Microsoft có lựa chọn tốt nhất tiếp theo. Khi các hệ thống được đặt ở một vị trí xa với ít hoặc không có hỗ trợ CNTT cục bộ, điều quan trọng là phải có các công cụ cần thiết để bảo trì hệ thống. Dell Technologies thực hiện điều này bằng cách sử dụng Trung tâm quản trị Windows (WAC) với một số tiện ích mở rộng hướng tới IP riêng của họ, Tích hợp Dell EMC OpenManage cho Trung tâm quản trị Windows.

WAC là một công cụ nền tảng quản lý dựa trên trình duyệt để quản lý Windows 10 và Windows Server. Nó được cài đặt trên hệ thống máy khách và sử dụng PowerShell và Công cụ quản lý Windows (WMI) từ xa qua Quản lý từ xa Windows (WinRM) để giám sát và quản lý hệ thống Windows cũng như các cụm Azure Stack HCI.

Khung tổng quan của WAC cung cấp một bản tóm tắt về việc sử dụng tài nguyên của hệ thống và các công cụ để quản lý các chứng chỉ và thiết bị của hệ thống. WAC cũng cho phép bạn xem các sự kiện và quy trình, cài đặt các vai trò và tính năng cũng như quản lý người dùng và nhóm cục bộ, tường lửa, dịch vụ và bộ nhớ.

Dell Technologies đã tận dụng khả năng mở rộng của WAC và tạo ra Tích hợp Dell EMC OpenManage với Trung tâm quản trị Microsoft Windows (OMIMSWAC). Điều này được thiết kế để dễ dàng và đơn giản hóa quá trình giám sát và kiểm kê phần cứng sâu và sắp xếp các bản cập nhật BIOS, phần sụn và trình điều khiển. OMIMSWAC sử dụng tính năng Cập nhật Cluster-Aware của Windows Server 2019 để cập nhật các node AX và cụm Azure Stack HCI. Để khởi chạy OMIMSWAC, hãy nhấp vào  Tích hợp Dell EMC OpenManage  nằm trên thanh ribbon của WAC.

Chúng tôi đã thêm OMIMSWAC vào hệ thống của mình bằng cách khởi chạy WAC, nhấp vào Cài đặt  , sau đó  nhấp vào  Tiện ích mở rộng,  nhập  Dell EMC  vào hộp văn bản tìm kiếm, chọn  Dell EMC Open Manage Integration , sau đó nhấp vào  Cài đặt .

Bằng cách sử dụng OMIMSWAC để xem xét cụm của chúng tôi, chúng tôi có thể thấy tình trạng của hệ thống và đi sâu vào phần cứng đủ sâu để xem danh mục các thành phần của nó và phần mềm chúng đang sử dụng.

Bạn thậm chí có thể sử dụng OMIMSWAC để khởi chạy bảng điều khiển iDRAC nhằm quản lý ngoài băng tần của các node AX.

Khi bạn đã phát hiện ra cụm, bạn có thể sử dụng OMIMSWAC để xem báo cáo tuân thủ cho các node ở cấp độ cụm. Nếu hệ thống OMIMSWAC đang chạy có kết nối internet, nó sẽ tự động tải xuống các tiện ích Dell EMC System Update (DSU) và Dell EMC Inventory Collector (IC) từ Download.dell.com để chạy tuân thủ và cập nhật (các) node đích nếu DSU và IC không được cấu hình trong Cài đặt.

OMIMSWAC thực sự tỏa sáng trong việc hoàn thành các tác vụ thông thường, chẳng hạn như cập nhật. OMIMSWAC không chỉ tự động tải xuống các Gói cập nhật Dell (DUP) cần thiết, mà còn thực hiện cập nhật liên tục của một cụm để loại bỏ thời gian chết.

Kiểm tra node AX

Khi xem xét cụm HCI 2 node của Dell EMC, chúng tôi muốn xem xét cả hiệu suất của nó, cũng như tính khả dụng của ứng dụng thông qua các tình huống lỗi khác nhau. Để đạt được điều đó, chúng tôi đã định cấu hình kiểm tra hiệu suất SQL Server bao gồm tối đa 8 máy ảo SQL Server 2019 chạy Windows Server 2019 được cân bằng trên cụm 2 node của chúng tôi. Mỗi phiên bản SQL Server sau đó được cung cấp một cơ sở dữ liệu TPC-C quy mô 1.500 trong đó cơ sở dữ liệu và tệp nhật ký bằng 350GB dung lượng cho mỗi phiên bản. Điều này đã mang lại cho chúng tôi một dấu chân lưu trữ cơ sở dữ liệu khác nhau, từ 1,4TB với 4VM cho đến 2,8TB với 8VM. Chúng tôi đã sử dụng Benchmark Factory của Quest làm trình tạo khối lượng công việc cho dự án này, với 15.000 người dùng ảo tương tác với mỗi máy ảo.

Mỗi máy ảo được cấp phát 8 CPU ảo và 60GB RAM cùng với bộ nhớ lưu trữ của nó. Với cụm của chúng tôi được định cấu hình với 384GB RAM trên mỗi máy chủ, trong trường hợp node bị lỗi, chúng tôi đã giảm phân bổ RAM VM xuống 40GB để phù hợp với tất cả 8VM trên một máy chủ duy nhất.

Bốn tình huống thử nghiệm cơ sở dữ liệu của chúng tôi là:

  • Cụm làm việc: tổng cộng 8VM, 4VM cho mỗi node
  • 1 SSD không thành công trên một node: tổng số 8VM, 4VM trên mỗi node
  • Một node không thành công: tổng số 8VM, 8 máy ảo trên mỗi node

Trong thử nghiệm đầu tiên của chúng tôi đo hiệu suất của 8VM, 4 trên mỗi node, con số đó đã tăng lên mức trung bình 5ms.

Mặc dù hiệu suất mạnh mẽ và độ trễ cơ sở dữ liệu thấp là rất tốt, nhưng việc biết cách một nền tảng hoạt động trong các điều kiện kém tối ưu cũng quan trọng không kém. Kịch bản đầu tiên của chúng tôi đề cập đến cách nền tảng sẽ phản ứng với một ổ SSD bị lỗi. Chúng tôi bắt đầu khối lượng công việc và ngay sau khi nó ổn định, chúng tôi đã lấy một ổ SSD duy nhất từ ​​một node. Trong tình huống đó, hiệu suất chậm lại một chút xuống còn 6,5ms từ 5ms trong điều kiện bình thường.

Kịch bản thứ hai của chúng tôi bao gồm cách cụm sẽ hoạt động nếu một node ngoại tuyến để bảo trì hoặc mọi thứ sẽ hoạt động như thế nào nếu một node bị lỗi. Trong cả hai điều kiện, mọi thứ trở lại chỉ một node, mặc dù có một lợi thế nhỏ là không có lưu lượng truy cập đi qua mạng phụ trợ. Trong tình huống này, chúng tôi đo được độ trễ trung bình là 5,875 mili giây.

Lời kết

Chúng tôi nhận thấy ngày càng nhiều sự quan tâm đến 2NCs cho các ứng dụng ROBO. Các công ty đang tìm kiếm các hệ thống có giá cả hợp lý, chắc chắn và chỉ yêu cầu một lượng tương tác tối thiểu với nhân viên CNTT vì việc truy cập vào chúng có thể gặp vấn đề. Giải pháp Dell EMC cho Azure Stack HCI kiểm tra tất cả các yêu cầu này.

AX node Intel SSD

Chúng tôi đã xem xét những gì sẽ cần để kích thước chính xác, thu nhận và thiết lập hệ thống 2NC ROBO HCI. Chúng tôi rất ấn tượng với sự dễ dàng của Dell Technologies. Sau khi xem xét thiết lập hệ thống ban đầu, sau đó chúng tôi xem xét những gì sẽ cần thiết để duy trì hệ thống và một lần nữa ấn tượng với cách WAC thực hiện quá trình này dễ dàng. Tuy nhiên, điều thực sự khiến chúng tôi thất vọng là tích hợp OMIMSWAC của Dell Technologies khi nó thực hiện nâng cấp liên tục hệ thống của chúng tôi, bao gồm mọi thứ từ phần sụn trở lên, với ít tương tác của người vận hành. Đây là điểm khác biệt cơ bản đối với Dell Technologies, vì độ sâu tích hợp này là duy nhất đối với các nhà cung cấp Azure Stack HCI.

Khi chạy các điểm chuẩn trên hệ thống, chúng tôi nhận thấy hiệu suất khối lượng công việc ứng dụng mạnh mẽ trong điều kiện tối ưu. Khối lượng công việc SQL Server TPC-C của chúng tôi đo được 2,25ms trên bốn máy ảo quy mô 1.500 được đặt đồng đều trên cụm và 5ms khi khối lượng công việc đó được tăng lên tám máy ảo. Tuy nhiên, điều ấn tượng hơn nữa là cụm hoạt động tốt như thế nào với ổ SSD bị lỗi hoặc chỉ một node hoạt động. Trong tình huống đầu tiên của một ổ SSD bị lỗi , khối lượng công việc 8VM của chúng tôi đã tăng độ trễ từ 5 lên 6,5ms. Tuy nhiên, với một node hoàn toàn ngoại tuyến, độ trễ hầu như không lên đến 5,875 mili giây.

Để tóm tắt thử nghiệm của chúng tôi trên hệ thống này, chúng tôi nhận thấy rằng nó có thể dễ dàng xử lý các triển khai ROBO tải sẽ đưa vào hệ thống đó. Cái này quan trọng; những kiểu triển khai này sẽ bớt lo lắng hơn nhiều về khả năng hoạt động của một hệ thống như thế này và nhiều hơn nữa về các hoạt động lâu dài. Về điểm đầu tiên, Dell Technologies đã thiết kế các node AX này đến mức mà hiệu suất phần lớn không liên quan. Tất cả các thử nghiệm của chúng tôi xác nhận ngay cả khối lượng công việc SQL Server tích cực đã được hấp thụ mà không có vấn đề gì.

Nếu hiệu suất được giải quyết hiệu quả cho các trường hợp sử dụng ROBO HCI, thì các tổ chức cần phải chuyển sang hoạt động ngày thứ hai. Ở đây các node Dell EMC AX thực sự bắt đầu hoạt động, việc tích hợp với WAC để cập nhật cụm là rất quan trọng từ góc độ quản lý liên tục. Dell Technologies là công ty dẫn đầu rõ ràng về mặt này khi nói đến Azure Stack HCI. Cuối cùng, các tổ chức nên xem xét khả năng phục hồi của hệ thống. Chỉ với hai node và trong nhiều trường hợp không có hỗ trợ ngay tại chỗ, thời gian hoạt động là rất quan trọng. Trong thử nghiệm của chúng tôi về một số trạng thái xuống cấp, các node AX được hàn vào mà không bị gián đoạn, có nghĩa là văn phòng sẽ vẫn trực tuyến mà không ảnh hưởng đến hiệu suất ứng dụng. Có một số cách để triển khai Azure Stack HCI, nhưng không có giải pháp nào toàn diện hơn những gì Dell Technologies mang lại cho bảng với các node AX.

____
Bài viết liên quan

Vanito Hoang

Góp ý / Liên hệ tác giả

Đội ngũ của Nhất Tiến Chung sẵn sàng tư vấn giải pháp, chạy BOM, báo giá mọi nhu cầu CNTT của Quý doanh nghiệp. Vui lòng liên hệ:

Trung tâm Giải pháp NTC
Hotline: 1900 558879 #2
Email: presales@nhattienchung.vn