Recommendation System: Tìm hiểu hệ thống gợi ý là gì?

Các hệ thống gợi ý (hay recommender system, recommendation engine) dựa trên deep learning đang thúc đẩy sự phát triển của những gã khổng lồ trực tuyến. Hiện tại, với tính sẵn sàng của các hệ thống xử lý dữ liệu hiệu năng cao qua GPU, bất cứ doanh nghiệp nào cũng có thể tiếp cận được đến với các hệ thống kiểu như vậy.

Tìm kiếm (search) và bạn có thể sẽ thấy. Tuy nhiên, hãy dành đủ thời gian trực tuyến và những gì bạn muốn sẽ bắt đầu “tự đi tìm” bạn ngay khi bạn cần. Đây chính là những thứ đang thúc đẩy cho internet hiện tại.

Chúng được gọi là hệ thống gợi ý và chúng là một trong những ứng dụng quan trọng nhất hiện nay. Chúng xuất hiện cũng là vì bởi có một sự bùng nổ của các lựa chọn và tính bất khả thi khi khám phá một số lượng lớn các tùy chọn sẵn sàng dành cho bạn.

Nếu một người đi mua sắm trực tuyến mất một giây cho mỗi lần vuốt trên ứng dụng di động để duyệt qua 2 tỷ sản phẩm có sẵn trên một trang web thương mại điện tử, cô ta sẽ mất 65 năm – gần như toàn bộ cuộc đời – để đi qua toàn bộ các danh mục.

Đây là một trong những lý do chính khiến Internet hiện nay buộc phải được cá nhân hóa, nếu không, hàng tỷ người dùng Internet trên thế giới không thể tiếp cận được với các sản phẩm, dịch vụ, thậm chí cả kiến thức chuyên môn – trong số hàng trăm tỷ điều – quan trọng đối với họ.

Họ cũng chỉ có thể là con người, rất thật mà thôi. Rốt cuộc, bạn sẽ làm gì khi đến gặp ai đó để được tư vấn? Khi bạn tìm kiếm thông tin phản hồi, là bạn đang yêu cầu họ một sự gợi ý.

Giờ đây, được thúc đẩy bởi số lượng dữ liệu khổng lồ về sở thích của hàng trăm triệu người dùng cá nhân, các hệ thống gợi ý đang chạy đua để làm tốt hơn việc đó.

Internet hẳn nhiên đã biết rất nhiều sự thật: tên của bạn, địa chỉ của bạn, có thể là nơi sinh của bạn, và thậm chí là những tương tác, hành vi mà bạn đã thực hiện. Nhưng những gì các hệ thống gợi ý nhắm đến là tìm cách học bạn tốt hơn nữa, và có lẽ là tốt hơn cả những người hiểu sở thích của bạn.

Chìa khóa thành công của các công ty thành công nhất trên web

Hệ thống gợi ý không phải là một ý tưởng mới. Jussi Karlgren đã hình thành ý tưởng về một hệ thống gợi ý, một “kệ sách kỹ thuật số”, năm 1990. Trong hai thập kỷ tiếp theo, các nhà nghiên cứu tại MIT và Bellcore liên tục phát triển kỹ thuật này.

Công nghệ đã thực sự thu hút trí tưởng tượng của cộng đồng bắt đầu từ năm 2007, khi Netflix – khi đó đang kinh doanh cho thuê DVD qua thư tín – đã khởi động một cuộc thi mở với giải thưởng 1 triệu USD cho thuật toán collaborative filtering có thể cải thiện độ chính xác cho hệ thống của Netflix hơn 10%, một phần thưởng đã được trao trong năm 2009.

Trong thập kỷ tiếp theo, các hệ thống gợi ý như vậy sẽ trở nên quan trọng đối với sự thành công của các công ty Internet như Netflix, Amazon, Facebook, Yahoo và Alibaba.

Vòng lặp cải tiến dữ liệu

Và thế hệ mới nhất của các hệ thống gợi ý được hỗ trợ bởi deep learning tạo ra những điều kỳ diệu trong tiếp thị, mang lại cho các công ty khả năng tăng tỷ lệ click chuột bằng cách nhắm mục tiêu (targeting) tốt hơn đến những người dùng sẽ quan tâm đến những gì họ cung cấp.

Giờ đây, với khả năng thu thập dữ liệu, xử lý nó, sử dụng nó để đào tạo các mô hình AI và triển khai các mô hình đó để giúp bạn và những người khác tìm thấy những gì bạn muốn là một trong những lợi thế cạnh tranh lớn nhất mà các công ty internet lớn nhất sở hữu.

Chúng thúc đẩy một vòng lặp cải tiến – với công nghệ tốt nhất thúc đẩy các gợi ý tốt hơn, các khuyến nghị thu hút nhiều khách hàng hơn và cuối cùng, cho phép các công ty này trang bị những công nghệ tốt hơn nữa.

Đó là một mô hình kinh doanh. Vậy công nghệ này hoạt động như thế nào?

Thu thập thông tin – Collecting Information

Hệ thống gợi ý hoạt động bằng cách thu thập thông tin – ghi nhận những gì bạn yêu cầu – chẳng hạn như những bộ phim bạn xem trên ứng dụng xem phim, xếp hạng và đánh giá mà bạn đã gửi, những sản phẩm bạn đã cho vào giỏ hàng, những từ khóa mà bạn đã tìm kiếm và các hành động khác bạn đã thực hiện trong quá khứ.

Có lẽ quan trọng hơn, họ có thể theo dõi các lựa chọn bạn đã thực hiện: Những gì bạn click vào và cách bạn duyệt qua các trang web. Thời gian bạn xem một bộ phim nào đó mất bao lâu, chẳng hạn. Hoặc quảng cáo nào bạn click vào hoặc bạn bè của bạn tương tác.

Tất cả thông tin này được truyền vào các trung tâm dữ liệu khổng lồ và được tổng hợp thành các bảng dữ liệu (table) đa chiều, phức tạp và nhanh chóng phình to kích thước.

Chúng có thể lớn hàng trăm terabyte và cứ phát triển liên tục.

Chúng quá lớn như vậy không phải vì một lượng lớn dữ liệu được thu thập từ từng cá nhân, mà bởi vì chỉ một số ít dữ liệu được thu thập từ rất rất nhiều cá nhân.

Nói cách khác, các bảng dữ liệu này rất thưa tớt – hầu hết thông tin, hầu hết các dịch vụ này có trên hầu hết chúng ta đều gần như trống rỗng.

Nhưng tổng hợp lại, các bảng này chứa rất nhiều thông tin về sở thích của một số lượng rất lớn các cá nhân.

Và điều đó giúp các công ty đưa ra quyết định thông minh về những loại người dùng nhất định có thể sẽ thích.

Content Filtering, Collaborative Filtering

Mặc dù có một số lượng lớn các thuật toán và kỹ thuật gợi ý, hầu hết đều thuộc một trong hai loại chính: Content Filtering và Collaborative Filtering.

Collaborative Filtering giúp bạn tìm thấy những gì bạn thích bằng cách tìm kiếm những người dùng tương tự như bạn.

Vì vậy, trong khi hệ thống gợi ý có thể không biết gì về sở thích âm nhạc của bạn, nếu nó biết bạn và một người dùng khác cùng thích một cuốn sách nào đó, nó có thể gợi ý cho bạn một bài hát mà người dùng kia đã thích.

Ngược lại, Content Filtering hoạt động bằng cách hiểu các tính năng, thuộc tính của từng sản phẩm.

Vì vậy, nếu một hệ thống gợi ý thấy bạn thích những bộ phim “You’ve Got Mail” và “Sleepless in Seattle”, thì nó có thể gợi ý một bộ phim khác cho bạn với sự tham gia của Tom Hanks và Meg Ryan, chẳng hạn như “Joe Versus the Volcano”.

Đó chắc chắn chỉ là những ví dụ rất đơn giản để bạn hình dung.

Dữ liệu là một lợi thế cạnh tranh

Trên thực tế, vì các hệ thống này thu thập được rất nhiều dữ liệu, từ rất nhiều người và được triển khai ở quy mô lớn như vậy, chúng có thể tạo ra thêm hàng chục hoặc hàng trăm triệu USD doanh thu với những cải tiến nhỏ trong việc gợi ý của hệ thống.

Một doanh nghiệp có thể không rõ một cá nhân nào đó sẽ làm gì, nhưng nhờ vào quy luật số lượng lớn, họ biết rằng, nếu một gợi ý được đưa ra cho 1 triệu người, 1% số đó sẽ chấp nhận nó.

Nhưng trong khi những lợi ích tiềm năng từ các hệ thống gợi ý tốt hơn là rất lớn, thì những thách thức đi kèm cũng tương tự.

Chẳng hạn, các công ty internet thành công cần xử lý nhiều truy vấn hơn, nhanh hơn, chi ra một khoản tiền rất lớn cho cơ sở hạ tầng để theo kịp lượng dữ liệu chúng xử lý liên tục tăng lên.

Ngược lại, các công ty không tập trung vào công nghệ cần truy cập vào các công cụ có sẵn để họ không phải thuê cả team nhà khoa học dữ liệu.

Nếu những hệ thống gợi ý được sử dụng trong các lĩnh vực từ chăm sóc sức khỏe đến dịch vụ tài chính, chúng sẽ cần trở nên dễ tiếp cận hơn.

Tăng tốc bằng GPU (GPU Acceleration)

Đây là nơi GPU thể hiện vai trò.

Hẳn nhiên, các hệ thống GPU của NVIDIA từ lâu đã được sử dụng để tăng tốc thời gian đào tạo cho các mạng thần kinh – châm ngòi cho sự bùng nổ AI hiện đại – vì khả năng xử lý song song của chúng cho phép chúng vượt qua các nhiệm vụ cần nhiều dữ liệu.

Giờ đây, khi dòng dữ liệu khổng lồ di chuyển tiếp tục tăng lên, GPU đang được khai thác rộng rãi hơn. Các công cụ như RAPIDS, một bộ thư viện phần mềm để tăng tốc pipeline khoa học dữ liệu và phân tích nhanh hơn nhiều, vì vậy các nhà khoa học dữ liệu có thể hoàn thành công việc nhanh hơn rất nhiều.

Và application framework cho hệ thống gợi ý có tên Merlin vừa được NVIDIA công bố hứa hẹn sẽ làm cho các hệ thống gợi ý được tăng tốc bằng GPU sẽ trở nên dễ tiếp cận hơn với một end-to-end pipeline để thu thập, đào tạo và triển khai các hệ thống gợi ý tăng tốc bởi GPU.

Các hệ thống này có thể tận dụng GPU NVIDIA A100 mới, được xây dựng trên kiến trúc NVIDIA Ampere để các công ty có thể xây dựng các hệ thống gợi ý nhanh chóng và tiết kiệm hơn bao giờ hết.

Một lời Gợi ý? Nếu bạn đang tìm cách để hệ thống gợi ý hoạt động, bây giờ có thể là thời điểm rất tốt để bắt đầu.

Liên hệ tác giả