Hướng dẫn cho người mới bắt đầu: Nhận dạng hình ảnh và học sâu

Giới thiệu về các khái niệm và công nghệ cho phép máy tính “nhìn” và “học”

Nhiều cải tiến công nghệ mới gần đây dựa vào công nghệ nhận dạng hình ảnh – Image Recognition – Và có lẽ bạn đã đúng. Công nghệ đằng sau tính năng nhận dạng khuôn mặt trong điện thoại thông minh của chúng ta, chế độ tự hành trong xe tự lái và chẩn đoán hình ảnh trong chăm sóc sức khỏe,… đã có những bước tiến lớn trong những năm gần đây. Tất cả chúng đều sử dụng các giải pháp giúp cảm nhận về các vật thể trước mặt chúng. Do đó, tại sao chúng thường được gọi là thị giác máy tính hay cách gọi khác là điện toán thị giác. Những máy tính này có thể đưa ra quyết định chính xác dựa trên những gì chúng nhìn thấy.

Bạn thắc mắc vì sao chúng có thể làm điều đó? Trong bài viết này, chúng tôi sẽ cung cấp một lời giải thích ở mức tổng quan về cách thức nhận dạng hình ảnh hoạt động, cùng với các công nghệ học sâu giúp mang đến sức mạnh cho chúng. Phần dưới đây sẽ là dành cho những người chưa được trang bị các kiến thức chuyên sâu (có rất nhiều thông tin chuyên sâu nằm đâu đó trên web) nhưng vẫn có hứng thú với công nghệ nhận dạng hình ảnh.

Deep Learning và Neural Networks: Học sâu và Mạng thần kinh – Các thuật toán giúp thông minh hơn với thời gian

Phần lớn những tiến bộ trong lĩnh vực nhận dạng hình ảnh ngày nay phụ thuộc vào công nghệ học sâu, một loại hình học máy tiên tiến và là kỳ quan hiện đại của trí tuệ nhân tạo – AI / Artificial Intelligence. Học máy thông thường lấy dữ liệu, đẩy nó thông qua các thuật toán và sau đó đưa ra dự đoán; điều này mang lại cảm giác rằng một chiếc máy tính đang nghĩ về người khác và đi đến kết luận của chính nó. Học sâu khác nhau ở cách nó có thể xác định xem kết luận có đúng hay không, có đủ thời gian hay không.

Điều này rất quan trọng để nhận dạng hình ảnh, vì bạn muốn một cái gì đó giống như một chiếc xe tự lái để có thể nói sự khác biệt giữa một biển báo và người đi bộ. Công nghệ học tập sâu hoạt động như thế nào được quyết định bởi một thứ gọi là mạng thần kinh – Neural Networks.

Các mạng thần kinh sử dụng các thuật toán được xếp chồng lên nhau. Điều này làm cho mỗi thuật toán phụ thuộc vào kết quả của các thuật toán xung quanh khác. Điều này tạo ra một quá trình cố gắng mô phỏng lý luận logic mà chúng ta sử dụng như con người (và tại sao chúng ta gọi nó là Trí tuệ nhân tạo). Để nhận dạng hình ảnh, loại mạng thần kinh được sử dụng được gọi là mạng thần kinh tích chập – Convolutional Neural Networks (CNN).

Convolutional Neural Networks (CNN) – Phân chia hình ảnh thành các con số

Khi chúng ta nhìn thấy một cái gì đó, bộ não của chúng ta cảm nhận được nó bằng sự dán nhãn, dự đoán và nhận ra các hình mẫu cụ thể. Một máy tính sử dụng CNN xử lý thông tin theo cách tương tự, nhưng nó làm như vậy bằng cách sử dụng các con số. Con người chúng ta nhận ra các hình mẫu thông qua cảm nhận thị giác (kết hợp với các giác quan khác của chúng ta), còn một CNN thực hiện tương tự bằng cách chia chỏ hình ảnh thành các con số.

Hoạt động bên trong của CNN rõ ràng phức tạp và mang tính kỹ thuật hơn nhiều so với chỉ các hình mẫu của con số, nhưng điều quan trọng là phải biết tích chập là gì: sự kết hợp của hai chức năng tạo ra chức năng thứ ba. Một mạng lưới thần kinh sử dụng tích chập đang hợp nhất nhiều bộ thông tin, gộp chúng lại với nhau để tạo ra một đại diện chính xác của một hình ảnh. Sau khi gộp, hình ảnh được mô tả trong rất nhiều dữ liệu mà mạng thần kinh có thể sử dụng để đưa ra dự đoán về nó là gì. Sau đó, máy tính có thể áp dụng dự đoán đó cho các ứng dụng khác, như mở khóa điện thoại của bạn hoặc đề nghị bạn bè gắn thẻ trên Facebook.

Một mạng lưới thần kinh sẽ học theo thời gian nếu dự đoán của nó là chính xác. Giống như với bất cứ điều gì khác, phải mất rất nhiều đào tạo cho máy tính để có được dự đoán của họ đúng; họ không tự động biết cách phân loại những vật thể được gọi trong thế giới thực.

Mạng lưới thần kinh tích chập hay Convolutional Neural Networks (CNN).

Các tập dữ liệu hình ảnh – Áp dụng kinh nghiệm vào các trường hợp mang tính thách thức hơn

Một cái gì đó mà nhiều người không biết về trí thông minh nhân tạo là có bao nhiêu công việc của con người tạo ra cái được gọi là tập dữ liệu – Datasets. Đây là cách đào tạo mô hình học tập sâu: nó thực hành đưa ra dự đoán từ thông tin trong bộ dữ liệu và sử dụng trải nghiệm đó trong các tình huống thực tế. Một phần lý do tại sao nhận dạng hình ảnh là một dạng trí tuệ nhân tạo được phát triển và sử dụng rộng rãi như vậy là do cách các bộ dữ liệu được phát triển. Một ví dụ đáng chú ý để nhận dạng hình ảnh là ImageNet, một trong những cơ sở dữ liệu hình ảnh được sử dụng rộng rãi đầu tiên cho trí tuệ nhân tạo.

Dự án ImageNet đã dán nhãn 3,2 triệu hình ảnh và thúc đẩy các nhà nghiên cứu phát triển các mô hình thuật toán của riêng họ. Những hình ảnh được gắn nhãn đó đã tạo ra một bộ dữ liệu mà các mô hình AI có thể thực hành, nhận ra hình ảnh với độ phức tạp ngày càng tăng và sử dụng các cấu trúc nâng cao hơn. ImageNet cuối cùng đã được theo sau bởi AlexNet, sử dụng một kiến ​​trúc mạng thần kinh tích chập sâu vẫn còn được sử dụng cho đến ngày nay.

Để một ứng dụng AI có thể xử lý một lượng thông tin khổng lồ như vậy và sử dụng nó một cách hiệu quả trong một mô hình học tập sâu, chúng đòi hỏi khả năng xử lý hiệu suất cao, khả năng truy cập dữ liệu ở tốc độ rất cao.


Giải pháp điện toán GPU hiệu năng cao

Nền tảng vững chắc cho các ứng dụng Trí tuệ Nhân tạo.

Tham khảo các hệ thống tiêu biểu tại đây ↗
By


 

Liên hệ tác giả