Các nguyên nhân gây ra lỗi ổ cứng SSD và cách xử lý chúng

Mặc dù SSD NVMe là một công nghệ lưu trữ có độ tin cậy cao, nhưng chúng vẫn dễ gặp phải một số lỗi. Dưới đây là các vấn đề bạn cần quan tâm để giữ cho ổ cứng SSD của bạn hoạt động tốt nhất.

So với ổ cứng quay cơ học (HDD) thì ổ cứng SSD đáng tin cậy hơn; Tuy nhiên, không có công nghệ lưu trữ nào là hoàn hảo. Thậm chí các mẫu sản phẩm mới nhất của ổ cứng NVMe SSD còn nhạy cảm với các sự cố đột ngột, và cả những vấn đề diễn tiến dần dần.

Biết cách phát hiện các dấu hiệu của sự cố SSD sắp xảy ra, cũng như nắm bắt được cách khắc phục sự cố ở ổ cứng SSD bị trục trặc, có thể giúp chuyển biến việc mất dữ liệu vĩnh viễn sang có khả năng khôi phục và loại bỏ sự cố. Giống như bất kỳ thiết bị lưu trữ nào, ổ SSD NVMe rồi thì cũng sẽ bị lỗi. Không giống như ổ cứng HDD, SSD không thể gửi cảnh báo bằng âm thanh rằng có thể có sự cố. Tuy nhiên, khi ổ cứng SSD có thể đã chết, điều đó không nhất thiết dữ liệu ra đi vĩnh viễn.

Dưới đây là 4 nguyên nhân hàng đầu gây ra lỗi ổ cứng SSD và cách giải quyết chúng.

1. Nhiệt độ

Mặc dù SSD NVMe là công nghệ mới, nhưng vấn đề khiến chúng ta đau đầu nhất là một trong những vấn đề lâu đời nhất trong lĩnh vực máy tính: Nhiệt độ! Leon Adato, trưởng phòng cung cấp phần mềm quản lý và công cụ giám sát SolarWinds cho biết: “SSD NVMe có thể chạy và sinh nhiệt rất cao, đặc biệt nếu bạn đang chạy các hoạt động cường độ cao như tính toán phức tạp, khối lượng lớn. “Ngay cả khi hoạt động thường xuyên, ổ cứng NVMe SSD có thể tạo ra nhiệt độ cao và gây ra sự cố.”

Cung cấp khả năng làm mát đầy đủ có thể đảm bảo cho SSD không quá nóng, giúp nó không bị lỗi hoặc giảm tốc độ xuống tốc độ chậm hơn. Thách thức ở đây là tìm cách nào đó hút nhiệt ra khỏi ổ cứng. Có nhiều cách tiếp cận khác nhau cho vấn đề này. Adato nói: “Bạn có thể sử dụng một khung máy lớn, nơi bạn có thể đảm bảo nhiều luồng không khí bên ngoài trực tiếp tràn qua các con chip, hoặc bạn có thể lắp đặt hệ thống tản nhiệt, quạt hoặc hệ thống làm mát bằng chất lỏng.

Bộ phận IT cần nhanh chóng nhận biết về lỗi và việc khắc phục nó nhanh nhất có thể quan trọng hơn nhiều so với việc tìm ra một bên nào đó có lỗi để… đổ lỗi. Leon Adato, Head geek, SolarWinds

Giảm nhiệt độ phòng xung quanh xuống mức mát hơn cũng có thể giúp bạn giải quyết các vấn đề liên quan đến nhiệt độ của SSD. Adato cho biết: “Tuy nhiên khi bạn tiếp cận nó, ý tưởng đầu tiên phải là làm điều gì đó để tăng khả năng làm mát và / hoặc giảm nhiệt độ môi trường bên trong khung máy của hệ thống.

2. Lỗi firmware

Firmware của SSD cực kỳ phức tạp và nhiều lỗi SSD có xu hướng là một trường hợp đặc thù – một vấn đề xảy ra bên ngoài các thông số hoạt động bình thường. May mắn thay, khi sự cố firmware nghiêm trọng được thiết bị tự phát hiện, hầu hết các ổ SSD sẽ tự động rơi vào chế độ an toàn không hoạt động. “Nếu SSD không thể đảm bảo tính toàn vẹn của dữ liệu nói chung, nhà cung cấp sẽ triển khai chế độ ‘xác nhận’ hoặc chế độ lỗi khác, trong đó họ sử dụng cơ chế ngoại tuyến hoặc đặt nó ở chế độ chỉ đọc để bảo vệ phần mềm host khỏi phá hủy dữ liệu”, Jonmichael Hands, nhà hoạch định chiến lược cấp cao và giám đốc sản phẩm của Intel và đồng chủ tịch nhóm làm việc tại NVM Express, tập đoàn chịu trách nhiệm phát triển đặc điểm kỹ thuật NVMe, cho biết.

Các vấn đề về chương trình cơ sở thường xuyên xảy ra. Ví dụ, vào tháng 11 năm ngoái, Hewlett Packard Enterprise đã đưa ra cảnh báo khách hàng rằng Phiên bản chương trình cơ sở SSD HPD8 của họ cần một bản sửa lỗi quan trọng. Các công ty không áp dụng bản sửa lỗi sẽ thấy ổ đĩa của họ bị lỗi ở 32.768 giờ hoạt động. Kết quả là trong đúng 3 năm, 270 ngày và tám giờ, tất cả dữ liệu được lưu trữ trên ổ đĩa sẽ bị mất.

3. Sử dụng sai

Hình thức phổ biến nhất của việc lạm dụng SSD là làm hỏng ổ đĩa sớm vì nó không khớp đúng với khối lượng công việc của trung tâm dữ liệu. “Ví dụ, ổ đĩa QLC có độ bền thấp hơn được dùng cho các hệ thống lưu trữ mở rộng hoặc lưu trữ đối tượng, không nên được sử dụng làm ổ đĩa đệm với số lượt ghi ngẫu nhiên cao”, Hands nói.

May mắn thay, độ bền có thể được dự đoán và mô hình hóa một cách chính xác, vì vậy rất dễ dàng lên kế hoạch trước để giảm thiểu sự cố SSD. “Hãy nắm bắt những thông số DWPD [ổ ghi mỗi ngày] và TBW [terabyte được ghi] trên ổ cứng SSD của bạn”, Hands nói. “Lập mô hình khối lượng công việc của bạn và tìm ra SSD nào tốt nhất.” Để dự đoán ngày mòn của ổ, có sẵn các công cụ hữu ích như Công cụ ước tính độ bền SSD của Intel .

4. Vấn đề tiềm ẩn

Các vấn đề trên ổ SSD thường không trở nên rõ ràng cho đến khi chúng bắt đầu gây ra rắc rối lớn. Càng sớm nhận biết là chúng có vấn đề, bạn càng có thể phản ứng nhanh hơn với tình huống và giảm thiểu tác động. “Hãy đảm bảo rằng bạn sử dụng phần mềm giám sát phần cứng để theo dõi … các thành phần về tốc độ I/O, các khối lỗi và các chế độ lỗi khác nhau để bạn biết càng sớm càng tốt khi có điều gì đó bất thường,” Adato nói.

Adato lưu ý rằng điều quan trọng là phải tạo ra một môi trường kinh doanh trong đó người dùng cuối có thể cảm thấy thoải mái khi báo cáo một hệ thống dựa trên SSD đang hoạt động kém, kém tối ưu hoặc kỳ lạ. Ông nói: “Bộ phận IT cần nhanh chóng biết về một sự cố và việc sửa chữa nó nhanh hơn quan trọng hơn nhiều so với việc tìm ra một bên có tội để đổ lỗi.

Khi nói đến lỗi SSD, giải quyết vấn đề nhanh chóng là chìa khóa để ngăn ngừa thiệt hại quá nhiều. “Điều tốt nhất bạn có thể hy vọng là mất khả năng ghi vào ổ đĩa, nhưng vẫn giữ được khả năng đọc từ nó,” Adato nói. “Do đó, bạn có thể kéo tất cả dữ liệu của mình sang một ổ đĩa khác trước khi ném chúng vào đống phế liệu.”

____
Bài viết liên quan
Góp ý / Liên hệ tác giả