AI PU là gì? Những điều bạn cần biết về Bộ xử lý AI

Nhiều thiết bị thông minh, thiết bị IoT bạn mua sẽ được hỗ trợ bởi một số dạng của Trí tuệ nhân tạo (AI) – có thể là trợ lý giọng nói, camera nhận dạng khuôn mặt hoặc thậm chí là PC của bạn. Tuy nhiên, chúng không hoạt động thông qua… phép thuật và cần một thứ gì đó để cung cấp sức mạnh cho tất cả quá trình xử lý dữ liệu mà chúng thực hiện. Đối với một số thiết bị có thể được thực hiện trên đám mây, bởi các trung tâm dữ liệu rộng lớn. Các thiết bị khác sẽ tự thực hiện tất cả quá trình xử lý của chúng trên thiết bị thông qua Bộ xử lý AI hay AI PU.

Nhưng Bộ xử lý AI là gì? Và nó khác với các loại chip khác mà bạn có thể tìm thấy trong một thiết bị như thế nào? Bài viết này sẽ nêu bật tầm quan trọng của Bộ xử lý AI, các loại chip AI khác nhau được sử dụng cho các ứng dụng khác nhau và lợi ích của việc sử dụng AI PU trong thiết bị.

CÁC LOẠI BỘ XỬ LÝ AI VÀ CHÚNG DÙNG ĐỂ LÀM GÌ?

Các bộ vi xử lý khác và lý do tại sao chúng không tốt nhất cho AI

Vào những năm 1980, chúng ta đã chứng kiến sự trỗi dậy của máy tính cá nhân. Sự gia tăng này được kích hoạt bởi CPU (đơn vị xử lý trung tâm) thực hiện các hoạt động cơ bản về số học, logic, điều khiển và đầu vào / đầu ra được chỉ định bởi các lệnh trong chương trình. Nó là bộ não của máy tính của bạn. Đã có một số gã khổng lồ trong lĩnh vực CPU mà chúng ta đều biết bao gồm Intel và AMD.

Giải pháp hạ tầng Deep Learning, Trí tuệ Nhân tạo - AI

Tuy nhiên, khi nói về sự tiến hóa trong CPU, chúng ta cũng phải đề cập đến ARM, với kiến trúc chip bắt đầu từ những năm 1980 trong máy tính cá nhân, nhưng không trở thành người chơi thống trị cho đến khi sự nổi lên của điện toán di động, điện thoại thông minh và ở mức độ thấp hơn là máy tính bảng . Đến năm 2005, 98% tổng số điện thoại di động được bán ra đang sử dụng ít nhất một số dạng kiến trúc ARM. Trong năm 2013, 10 tỷ chiếc đã được sản xuất và chip dựa trên ARM được tìm thấy trong gần 60% thiết bị di động trên thế giới. ARM là một phần quan trọng của không gian chip AI, mà chúng ta sẽ nói đến sau.

Sau đó, vào những năm 1990, đồ họa 3D thời gian thực ngày càng trở nên phổ biến trong các trò chơi arcade, máy tính và bảng điều khiển, dẫn đến nhu cầu ngày càng tăng về đồ họa 3D tăng tốc phần cứng. Tuy nhiên, một gã khổng lồ phần cứng khác là NVIDIA đã vươn lên để đáp ứng nhu cầu này với GPU (bộ xử lý đồ họa), chuyên về đồ họa máy tính và xử lý hình ảnh. NVIDIA gần đây đã công bố thỏa thuận mua ARM với giá 40 tỷ USD.

Bộ xử lý AI – AI PU

Mặc dù GPU thường tốt hơn CPU khi nói đến xử lý AI, nhưng chúng không thực sự hoàn hảo. Ngành công nghiệp cần các bộ xử lý chuyên biệt để cho phép xử lý hiệu quả các ứng dụng AI, mô hình hóa và suy luận. Do đó, các nhà thiết kế chip hiện đang làm việc để tạo ra các đơn vị xử lý được tối ưu hóa để thực thi các thuật toán này. Chúng có nhiều tên gọi, chẳng hạn như NPU, TPU, DPU, SPU, v.v., nhưng tất cả chúng có thể gọi chung bằng thuật ngữ Bộ xử lý AI (AI Processing Unit hay AI PU).

AI PU được tạo ra để thực thi các thuật toán học máy, thường bằng cách hoạt động trên các mô hình dự đoán như mạng nơ-ron nhân tạo. Chúng thường được phân loại là đào tạo hoặc suy luận vì các quá trình này thường được thực hiện độc lập.

Một số ứng dụng chúng ta đã thấy trong thế giới thực:

Giám sát hệ thống hoặc khu vực khỏi các mối đe dọa như hệ thống bảo mật liên quan đến nhận dạng khuôn mặt thời gian thực (cam IP, camera cửa, v.v.)
Chatbots dành cho bán lẻ hoặc doanh nghiệp tương tác với khách hàng
Xử lý ngôn ngữ tự nhiên cho trợ lý giọng nói

Bộ xử lý AI và GPU

Nhưng khoan, một số người có thể sẽ thắc mắc – không phải là GPU đã có khả năng thực thi các mô hình AI rồi sao? Vâng, đó là sự thật. Trên thực tế, GPU có nhiều ưu điểm cho việc xử lý các mô hình AI.

GPU xử lý đồ họa, 2D hoặc 3D, và do đó nó yêu cầu phải xử lý song song nhiều chuỗi hàm cùng một lúc. Mạng nơ-ron AI cũng đòi hỏi quá trình xử lý song song, vì chúng có các nút phân nhánh giống như nơ-ron trong não động vật. GPU làm rất tốt phần này.

Tuy nhiên, mạng nơ-ron cũng yêu cầu các phép tích chập và đây là lúc GPU gặp khó khăn. Nói tóm lại, GPU về cơ bản được tối ưu hóa cho đồ họa, không phải mạng nơ-ron – chúng đóng vai trò thay thế là tốt nhất.

Một yếu tố quan trọng khác cần được tính đến là tốc độ phát triển AI ngày càng nhanh ở thời điểm hiện tại. Các nhà nghiên cứu và nhà khoa học máy tính trên khắp thế giới đang liên tục nâng cao các tiêu chuẩn của AI và học máy với tốc độ cấp số nhân mà sự tiến bộ của CPU và GPU, với tư cách là phần cứng hoàn hảo, không thể theo kịp.

Định luật Moore nói rằng số lượng bóng bán dẫn trong một mạch tích hợp dày đặc (IC) tăng gấp đôi sau mỗi hai năm. Nhưng Định luật Moore đang chết dần, và ngay cả khi nó ở mức tốt nhất cũng không thể theo kịp tốc độ phát triển của AI.

Khả năng tăng tốc của AI cuối cùng sẽ dựa vào một bộ tăng tốc AI chuyên dụng, chẳng hạn như AI PU. AI PU thường được yêu cầu cho các mục đích sau:

Tăng tốc tính toán các tác vụ Học máy lên nhiều lần (gần 10 nghìn lần) so với GPU
Tiêu thụ năng lượng thấp và cải thiện việc sử dụng tài nguyên cho các tác vụ Học máy so với GPU và CPU

CÁC THÀNH PHẦN CỦA AI SOC

Trong khi AI PU tạo nên bộ não của Hệ thống AI trên chip (SoC), nó chỉ là một phần của chuỗi các thành phần phức tạp tạo nên chip. Ở đây, chúng ta sẽ phân tích AI SoC, các thành phần được ghép nối với AI PU và cách chúng hoạt động cùng nhau.

NPU

Như đã trình bày ở trên, đây là đơn vị xử lý thần kinh hoặc công cụ nhân ma trận nơi các hoạt động cốt lõi của AI SoC được thực hiện. Chúng tôi đã đi vào rất nhiều chi tiết ở đó, nhưng cần phải chỉ ra rằng đối với các nhà sản xuất chip AI, đây cũng là nước sốt bí mật về nơi bất kỳ SoC AI nào nổi bật so với tất cả các SoC AI khác; giống như một hình mờ về khả năng thực tế của nhóm của bạn.

Controller

Đây là những bộ xử lý, thường dựa trên RISC-V (mã nguồn mở, được thiết kế bởi Đại học California Berkeley), ARM (được thiết kế bởi ARM Holdings) hoặc kiến trúc tập lệnh logic tùy chỉnh (ISA) được sử dụng để điều khiển và giao tiếp với tất cả các khối khác và bộ xử lý bên ngoài.

Để kiểm soát cục bộ hay không là một câu hỏi cơ bản được trả lời là tại sao con chip này được tạo ra, nó được sử dụng ở đâu và nó được sử dụng bởi ai; mọi nhà sản xuất chip cần phải trả lời những câu hỏi này trước khi quyết định câu hỏi cơ bản này.

SRAM

Đây là bộ nhớ cục bộ được sử dụng để lưu mô hình hoặc các đầu ra trung gian. Hãy coi nó giống như tủ lạnh nhà bạn. Mặc dù dung lượng lưu trữ của nó nhỏ, nhưng việc lấy đồ (trong trường hợp này là dữ liệu) hoặc đặt lại cực kỳ nhanh chóng và thuận tiện. Trong một số trường hợp sử dụng nhất định, đặc biệt liên quan đến AI tại biên, tốc độ đó rất quan trọng, giống như một chiếc ô tô cần phải phanh khi có người đi bộ đột ngột xuất hiện trên đường.

Bạn đưa vào chip bao nhiêu SRAM là quyết định dựa trên chi phí và hiệu suất. SRAM Pool lớn hơn yêu cầu chi phí trả trước cao hơn, nhưng có ít lượt đi đến DRAM hơn (là bộ nhớ điển hình, chậm hơn, rẻ hơn mà bạn có thể tìm thấy trên bo mạch chủ hoặc như một thanh cắm vào bo mạch chủ của PC để bàn) nên nó tự chi trả cho chính nó về lâu dài.

Mặt khác, một SRAM Pool nhỏ hơn có chi phí trả trước thấp hơn, nhưng yêu cầu nhiều chuyến đi đến DRAM hơn; điều này kém hiệu quả hơn, nhưng nếu thị trường yêu cầu một con chip giá cả phải chăng hơn là cần thiết cho một trường hợp sử dụng cụ thể, thì có thể phải cắt giảm chi phí ở đây.

Tốc độ xử lý là sự khác biệt giữa nhóm SRAM lớn hơn và nhóm nhỏ hơn, giống như RAM ảnh hưởng đến hiệu suất máy tính của bạn và khả năng xử lý các nhu cầu về hiệu suất.

I/O

Các khối này cần thiết để kết nối SoC với các thành phần bên ngoài SoC, ví dụ DRAM và có thể là một bộ xử lý bên ngoài. Những giao diện này rất quan trọng đối với AI SoC để tối đa hóa hiệu suất và ứng dụng tiềm năng của nó, nếu không bạn sẽ tạo ra tắc nghẽn. Ví dụ, nếu một động cơ V8 được kết nối với một bình xăng 4 gallon, nó sẽ phải bơm xăng sau mỗi vài khối. Do đó, giao diện và những gì nó kết nối (DRAM, bộ xử lý bên ngoài, v.v.) cần mang lại hiệu suất tiềm năng của AI SoC

DDR, ví dụ, là một giao diện cho DRAM. Vì vậy, nếu SRAM giống như tủ lạnh ở nhà của bạn, hãy nghĩ về DRAM giống như cửa hàng tạp hóa. Nó có dung lượng lưu trữ lớn hơn, nhưng mất nhiều thời gian hơn để lấy đồ và trở về nhà.

Interconnect Fabric (Kết cấu kết nối nội bộ)

Interconnect fabric là kết nối giữa các bộ xử lý (AI PU, bộ điều khiển) và tất cả các mô-đun khác trên SoC. Giống như I/O, Interconnect Fabric rất cần thiết trong việc trích xuất tất cả hiệu suất của AI SoC. Nhìn chung, chúng ta chỉ biết đến Interconnect Fabric trong một con chip khi nó gặp vấn đề về hiệu năng.

Bất kể bộ vi xử lý của bạn nhanh hay đột phá đến mức nào, những đổi mới chỉ quan trọng nếu kết cấu kết nối của bạn có thể theo kịp và không tạo ra độ trễ làm tắc nghẽn hiệu suất tổng thể, giống như việc không đủ làn đường trên đường cao tốc có thể gây tắc đường trong giờ cao điểm.

Tất cả các thành phần này đều là những phần quan trọng của chip AI. Mặc dù các chip khác nhau có thể có các thành phần bổ sung hoặc đặt các ưu tiên đầu tư khác nhau vào các thành phần này, như đã nêu với SRAM ở trên, các thành phần thiết yếu này hoạt động cùng nhau theo cách cộng sinh để đảm bảo chip AI của bạn có thể xử lý các mô hình AI một cách nhanh chóng và hiệu quả. Không giống như CPU và GPU, thiết kế của AI SoC còn lâu mới trưởng thành. Phần này của ngành đang liên tục phát triển với tốc độ nhanh chóng, chúng tôi tiếp tục thấy những tiến bộ trong thiết kế AI SoC.

CHIP AI VÀ CÁC TRƯỜNG HỢP SỬ DỤNG CỦA CHÚNG

Có rất nhiều chip khác nhau với các tên khác nhau trên thị trường, tất cả đều có cách đặt tên khác nhau tùy thuộc vào công ty thiết kế chúng. Những con chip này có các trường hợp sử dụng khác nhau, cả về mô hình chúng được sử dụng và các ứng dụng trong thế giới thực mà chúng được thiết kế để tăng tốc.

Đào tạo và suy luận

Trí tuệ nhân tạo về cơ bản là sự mô phỏng bộ não con người bằng cách sử dụng các mạng nơ-ron nhân tạo, được dùng để thay thế cho các mạng nơ-ron sinh học trong não của chúng ta. Một mạng nơ-ron được tạo thành từ một loạt các nút hoạt động cùng nhau và có thể được gọi để thực thi một mô hình.

Đây là lúc chip AI phát huy tác dụng. Chúng đặc biệt giỏi trong việc xử lý các mạng nơ-ron nhân tạo này và được thiết kế để thực hiện hai việc với chúng: đào tạo và suy luận.

Các chip được thiết kế để đào tạo về cơ bản hoạt động như một giáo viên cho mạng, giống như một đứa trẻ trong trường học. Một mạng nơ-ron thô ban đầu chưa được phát triển và dạy hoặc đào tạo bằng cách nhập khối lượng lớn dữ liệu. Việc đào tạo đòi hỏi rất nhiều về máy tính, vì vậy chúng tôi cần các chip AI tập trung vào đào tạo được thiết kế để có thể xử lý dữ liệu này một cách nhanh chóng và hiệu quả. Chip càng mạnh thì mạng học càng nhanh.

Một khi mạng đã được đào tạo, nó cần các chip được thiết kế để suy luận để sử dụng dữ liệu trong thế giới thực, cho những thứ như nhận dạng khuôn mặt, nhận dạng cử chỉ, xử lý ngôn ngữ tự nhiên, tìm kiếm hình ảnh, lọc thư rác, v.v. hãy coi suy luận là khía cạnh của các hệ thống AI mà bạn có nhiều khả năng sẽ thấy khi hoạt động, trừ khi bạn làm việc trong lĩnh vực phát triển AI ở phía đào tạo.

Bạn có thể coi việc luyện tập giống như việc xây dựng một cuốn từ điển, trong khi suy luận cũng giống như việc tra cứu các từ và hiểu cách sử dụng chúng. Cả hai đều cần thiết và cộng sinh.

Cần lưu ý rằng các chip được thiết kế để đào tạo cũng có thể suy luận, nhưng chip suy luận không thể thực hiện đào tạo.

Đám mây và điện toán biên

Một khía cạnh khác của Bộ xử lý AI mà chúng ta cần biết là liệu nó được thiết kế cho các trường hợp sử dụng đám mây hay các trường hợp sử dụng biên và liệu chúng ta có cần chip suy luận hoặc chip đào tạo cho các trường hợp sử dụng đó hay không.

Điện toán đám mây hữu ích vì khả năng tiếp cận của nó, vì sức mạnh của nó có thể được sử dụng hoàn toàn ngay từ đầu. Bạn không cần một con chip trên thiết bị để xử lý bất kỳ suy luận nào trong các trường hợp sử dụng đó, điều này có thể tiết kiệm điện năng và chi phí. Tuy nhiên, nó có nhược điểm khi nói đến quyền riêng tư và bảo mật, vì dữ liệu được lưu trữ trên các máy chủ đám mây có thể bị tấn công hoặc xử lý sai. Đối với các trường hợp sử dụng suy luận, nó cũng có thể kém hiệu quả hơn vì nó kém chuyên biệt hơn so với các chip cạnh.

Các chip xử lý suy luận của chúng trên cạnh được tìm thấy trên một thiết bị, ví dụ như máy ảnh nhận dạng khuôn mặt. Chúng riêng tư và an toàn hơn so với sử dụng đám mây, vì tất cả dữ liệu được lưu trữ trên thiết bị và các chip thường được thiết kế cho mục đích cụ thể của chúng – ví dụ: một máy ảnh nhận dạng khuôn mặt sẽ sử dụng một con chip đặc biệt tốt để chạy các mô hình được thiết kế để nhận dạng khuôn mặt. Chúng cũng có những khuyết điểm, vì việc thêm một con chip khác vào thiết bị sẽ làm tăng chi phí và điện năng tiêu thụ. Điều quan trọng là sử dụng chip AI tiên tiến cân bằng giữa chi phí và sức mạnh để đảm bảo thiết bị không quá đắt so với phân khúc thị trường của nó, hoặc nó không quá ngốn điện hoặc đơn giản là không đủ mạnh để phục vụ mục đích của nó một cách hiệu quả.

Dưới đây là cách các ứng dụng và chip này thường được ghép nối:

Cloud + Training

Mục đích của việc ghép nối này là phát triển các mô hình AI được sử dụng để suy luận. Các mô hình này cuối cùng được tinh chỉnh thành các ứng dụng AI dành riêng cho một trường hợp sử dụng. Những con chip này chạy mạnh và đắt tiền, đồng thời được thiết kế để đào tạo nhanh nhất có thể.

Các hệ thống ví dụ bao gồm hệ thống DGX-2 của NVIDIA, có tổng công suất xử lý là 2 petaFLOPS. Nó được tạo thành từ 16 GPU NVIDIA V100 Tensor Core. Một ví dụ khác là chip Gaudi của Intel Habana.

Ví dụ về các ứng dụng mà mọi người tương tác hàng ngày đòi hỏi phải đào tạo nhiều bao gồm ảnh Facebook hoặc Google dịch.

Khi mức độ phức tạp của các mô hình này tăng lên vài tháng một lần, thị trường cho đám mây và đào tạo sẽ tiếp tục cần thiết và phù hợp.

Cloud + Inference

Mục đích của việc ghép nối này là dành cho những thời điểm khi suy luận cần sức mạnh xử lý đáng kể, đến mức không thể thực hiện suy luận này trên thiết bị. Điều này là do ứng dụng sử dụng các mô hình lớn hơn và xử lý một lượng dữ liệu đáng kể.

Các chip mẫu ở đây bao gồm Cloud AI 100 của Qualcomm, là các chip lớn được sử dụng cho AI trong các trung tâm dữ liệu đám mây lớn. Một ví dụ khác là Huanguang 800 của Alibaba hoặc Colossus MK2 GC200 IPU của Graphcore.

Trong đó chip đào tạo được sử dụng để đào tạo ảnh của Facebook hoặc Google Dịch, chip suy luận đám mây được sử dụng để xử lý dữ liệu bạn nhập vào bằng cách sử dụng các mô hình mà các công ty này tạo ra. Các ví dụ khác bao gồm AI chatbots hoặc hầu hết các dịch vụ hỗ trợ AI do các công ty công nghệ lớn điều hành.

Edge + Inference

Việc sử dụng các chip cạnh trên thiết bị để suy luận loại bỏ mọi vấn đề về độ trễ hoặc không ổn định của mạng và tốt hơn để bảo vệ quyền riêng tư của dữ liệu được sử dụng cũng như bảo mật. Không có chi phí liên quan cho việc sử dụng băng thông cần thiết để tải lên nhiều dữ liệu, đặc biệt là dữ liệu trực quan như hình ảnh hoặc video, do đó, miễn là cân bằng giữa chi phí và hiệu quả sử dụng điện, nó có thể rẻ hơn và hiệu quả hơn so với suy luận đám mây.

Ví dụ ở đây bao gồm các chip riêng của Kneron, bao gồm cả KL520 và chip KL720 mới ra mắt gần đây, là các chip tiết kiệm chi phí, năng lượng thấp hơn được thiết kế để sử dụng trên thiết bị. Các ví dụ khác bao gồm Intel Movidius và TPU Coral của Google.

Các trường hợp sử dụng bao gồm camera giám sát nhận dạng khuôn mặt, camera được sử dụng trong xe để phát hiện người đi bộ và nguy hiểm hoặc phát hiện nhận biết lái xe và xử lý ngôn ngữ tự nhiên cho trợ lý giọng nói.

Tất cả các loại chip khác nhau này và các cách triển khai, mô hình và trường hợp sử dụng khác nhau của chúng đều cần thiết cho sự phát triển của Trí tuệ nhân tạo vạn vật (AIoT) trong tương lai. Khi được hỗ trợ bởi các công nghệ non trẻ khác như 5G, khả năng sẽ chỉ phát triển. AI đang nhanh chóng trở thành một phần quan trọng trong cuộc sống của chúng ta, cả ở nhà và nơi làm việc, và sự phát triển trong không gian chip AI sẽ nhanh chóng để đáp ứng sự phụ thuộc ngày càng tăng của chúng ta vào công nghệ.

Theo Techradar

____
Bài viết liên quan