Lĩnh vực AI đang điều chỉnh để thích nghi cho năm 2020

Năm 2020 đã khiến mọi ngành công nghiệp suy nghĩ lại những cách để tiến lên phía trước giữa trận chiến toàn cầu với COVID-19. Ở cấp độ cá nhân, chúng ta phải điều chỉnh một cách sống mới. Chúng ta đã bắt đầu chấp nhận những thay đổi này và tìm ra giải pháp cho cuộc sống mới theo các quy tắc bị áp đặt bởi đại dịch này. Trong khi con người là bất định, AI đang cố gắng để tiến lên.

Có một vấn đề với AI training vào năm 2020 là, thật bất ngờ, chúng ta đã phải thay đổi các chuẩn mực văn hóa và xã hội. Những “thực tế” mà chúng ta đã dạy cho các thuật toán, các mô hình AI, không còn thực sự đúng nữa. Cụ thể với AI về thị giác (Visual), cần làm cho chúng diễn giải được cách chúng ta sống với bối cảnh hoàn toàn mới mà chúng chưa được dạy trước đây.

Các thuật toán vẫn đang điều chỉnh theo hàng đợi thị giác mới và cố gắng hiểu cách xác định chính xác chúng. Khi Visual AI bắt kịp với tình hình mới, chúng ta cũng cần nhấn mạnh tầm quan trọng mới đối với việc cập nhật thường xuyên trong quy trình đào tạo AI, để các dataset được đào tạo không chính xác và các mô hình nguồn mở có sẵn từ trước có thể được sửa chữa để phản ánh đúng thực tế.

Các mô hình thị giác máy tính đang vật lộn để gán nhãn các mô tả thích hợp cho các hoạt cảnh hoặc tình huống mới mà chúng ta thấy trong thời đại COVID-19. Các thể loại đã thay đổi. Ví dụ, hình ảnh của một người cha đang làm việc tại nhà trong khi con trai ông ta đang chơi. AI vẫn đang phân loại nó với các từ khóa “thư giãn”, “giải trí”. Nó không được xác định đây là “văn phòng” hay “công việc”, mặc dù thực tế là hình ảnh làm việc với con bạn bên cạnh hiện đã rất phổ biến đối với nhiều gia đình trong thời điểm hiện tại.


Chủ đề của bức hình này là “thư giãn”, hay “làm việc”? – GettyImages

Ở cấp độ kỹ thuật hơn, chúng ta có các mô tả pixel khác nhau về thế giới của chúng ta. Tại Getty Images, chúng tôi đã đào tạo AI để biết “quan sát”. Điều này có nghĩa là các thuật toán có thể xác định hình ảnh và phân loại chúng dựa trên cấu trúc pixel của hình ảnh đó và quyết định những gì nó bao gồm. Thay đổi nhanh chóng cách chúng ta sống hàng ngày có nghĩa là chúng ta cũng thay đổi những gì một thể loại hoặc tag (chẳng hạn như “lau dọn”) được gán cho sự việc.

Hãy nghĩ về nó theo cách này – việc vệ sinh bây giờ có thể bao gồm cả việc lau sạch các bề mặt nhìn đang rất sạch sẽ. Các thuật toán trước đây đã được dạy rằng, để mô tả việc làm sạch, cần phải có một thứ gì đó có bề mặt dơ bẩn. Bây giờ, điều này sẽ khác. Các hệ thống của chúng ta phải được đào tạo lại để tính đến các tham số ấn định danh mục được định nghĩa lại này.

Điều này cũng liên quan đến quy mô nhỏ hơn. Ai đó có thể nắm lấy tay nắm cửa bằng một miếng lau nhỏ hoặc lau tay lái khi ngồi trong xe. Những gì đã từng là một chi tiết tầm thường bây giờ giữ vai trò quan trọng khi mọi người cố gắng giữ an toàn. Chúng ta cần nắm bắt những sắc thái nhỏ này để nó được gắn thẻ thích hợp. Sau đó, AI có thể bắt đầu hiểu thế giới của chúng ta vào năm 2020 và tạo ra kết quả chính xác.


Bình thường mới – Getty Images

Một vấn đề khác của AI ngay bây giờ là các thuật toán học máy vẫn đang cố gắng hiểu cách xác định và phân loại khuôn mặt qua khẩu trang. Khuôn mặt đang được phát hiện chỉ là một nửa bên trên, hoặc là hai khuôn mặt – một khuôn mặt với khẩu trang và cái thứ hai chỉ có đôi mắt. Điều này tạo ra sự không nhất quán và hạn chế khả năng sử dụng chính xác các mô hình nhận diện khuôn mặt.

Một hướng giải quyết là đào tạo lại các thuật toán để hoạt động tốt hơn khi chỉ được đưa ra phần trên của khuôn mặt (phía trên khẩu trang). Vấn đề khẩu trang tương tự như các thách thức phát hiện khuôn mặt cổ điển như những người đeo kính râm hoặc phát hiện khuôn mặt của ai đó thể hiện trên hồ sơ. Bây giờ khẩu trang cũng là điểm chung.


Khuôn mặt bình thường bây giờ bao gồm cả khẩu trang – Getty Images

Điều này cho chúng ta thấy rằng các mô hình thị giác máy tính vẫn còn một chặng đường dài trước khi thực sự có thể “nhìn thấy” hết mọi thứ trong bối cảnh xã hội không ngừng thay đổi và phát triển của chúng ta. Cách để hóa giải điều này là xây dựng các bộ dữ liệu mạnh mẽ. Sau đó, chúng ta có thể huấn luyện các mô hình thị giác máy tính để giải thích cho vô số cách khác nhau mà một khuôn mặt có thể bị cản trở hoặc che phủ.

Tại thời điểm này, chúng ta đang mở rộng các thông số về những gì thuật toán nhìn thấy trên khuôn mặt – có thể là một người đeo khẩu trang tại cửa hàng tạp hóa, một y tá đeo khẩu trang như một phần của công việc hàng ngày của họ hoặc một người che chở khuôn mặt của họ vì lý do tôn giáo.

Khi chúng ta tạo nội dung cần thiết để xây dựng các bộ dữ liệu mạnh mẽ này, chúng ta nên biết về khả năng thiên vị không chủ ý (unintentional bias) tăng lên. Mặc dù một số sai lệch sẽ luôn tồn tại trong AI, nhưng bây giờ chúng ta nhận thấy các bộ dữ liệu mất cân bằng với việc mô tả sự vật trong “bình thường mới” của chúng ta. Ví dụ, chúng ta đang thấy nhiều hình ảnh người da trắng đeo mặt nạ hơn các sắc tộc khác.

Đây có thể là hệ quả của các lệnh giãn cách xã hội nghiêm ngặt, mà các nhiếp ảnh bị hạn chế tiếp cận cộng đồng của họ và không thể đa dạng hóa đối tượng như mong muốn. Nó có thể là do phong cách của các nhiếp ảnh gia chọn chụp chủ đề này. Hoặc, do mức độ ảnh hưởng của COVID-19 đối với các khu vực khác nhau. Bất kể lý do là gì, sự mất cân bằng này sẽ dẫn đến các thuật toán có thể phát hiện chính xác hơn một người da trắng đeo khẩu trang hơn bất kỳ chủng tộc nào khác.

Các nhà khoa học dữ liệu và những người xây dựng các sản phẩm với các mô hình có trách nhiệm tăng lên để kiểm tra tính chính xác của các mô hình theo sự thay đổi trong các chuẩn mực xã hội. Kiểm tra thường xuyên, cập nhật dữ liệu và mô hình đào tạo là chìa khóa để đảm bảo chất lượng và độ bền của các mô hình hơn bao giờ hết tại thời điểm này. Nếu đầu ra không chính xác, các nhà khoa học dữ liệu có thể nhanh chóng xác định chúng.

Điều đáng nói là cách sống hiện tại của chúng ta là chỉ để duy trì tương lai gần. Vì điều này, chúng ta phải thận trọng về các bộ dữ liệu nguồn mở đang tận dụng cho mục đích đào tạo. Dữ liệu có thể được thay đổi. Các mô hình nguồn mở không thể thay đổi cần phải có tuyên bố từ chối trách nhiệm để rõ ràng những dự án nào có thể bị ảnh hưởng tiêu cực từ dữ liệu đào tạo lỗi thời.

Xác định bối cảnh mới mà chúng ta yêu cầu hệ thống hiểu là bước đầu tiên để hướng Visual AI tiến về phía trước. Sau đó, chúng ta cần thêm nội dung. Nhiều mô tả về thế giới xung quanh chúng ta – và những quan điểm đa dạng về nó. Khi chúng ta tích lũy nội dung mới này, hãy lưu trữ các xu hướng tiềm năng mới và các cách để giữ lại các bộ dữ liệu nguồn mở hiện có. Tất cả chúng ta phải theo dõi sự không nhất quán và không chính xác. Sự kiên trì và nổ lực để đào tạo lại các mô hình thị giác máy tính là cách chúng ta sẽ khai thác AI vào năm 2020.

Nguồn TechCrunch

Liên hệ tác giả