Tác giả: Dr. Tehseen Zia
ngày 20 tháng 6, 2024
Sự phát triển của trí tuệ nhân tạo tạo sinh không chỉ đang định hình lại cách chúng ta tương tác và trải nghiệm với các thiết bị điện toán mà còn đang tái định nghĩa cốt lõi của công nghệ điện toán. Một trong những động lực chính thúc đẩy sự chuyển đổi này là nhu cầu vận hành trí tuệ nhân tạo tạo sinh trên các thiết bị có tài nguyên tính toán hạn chế. Bài viết này thảo luận về những thách thức mà điều này đặt ra và cách mà các đơn vị xử lý thần kinh (NPU) đang nổi lên để giải quyết chúng. Ngoài ra, bài viết cũng giới thiệu một số bộ vi xử lý NPU mới nhất đang dẫn đầu trong lĩnh vực này.
Những Thách Thức của Hạ Tầng Trí Tuệ Nhân Tạo Tạo Sinh Trên Thiết Bị
Trí tuệ nhân tạo tạo sinh, nền tảng đằng sau việc tổng hợp hình ảnh, tạo văn bản và sáng tác nhạc, đòi hỏi lượng tài nguyên tính toán đáng kể. Theo cách thông thường, những yêu cầu này được đáp ứng bằng cách tận dụng các khả năng rộng lớn của các nền tảng đám mây. Dù hiệu quả, nhưng cách tiếp cận này đi kèm với một loạt các thách thức đối với trí tuệ nhân tạo tạo sinh trên thiết bị, bao gồm sự phụ thuộc vào kết nối internet liên tục và hạ tầng tập trung. Sự phụ thuộc này gây ra độ trễ, lỗ hổng bảo mật và tiêu thụ năng lượng tăng cao.
Nền tảng của hạ tầng trí tuệ nhân tạo dựa trên đám mây chủ yếu dựa vào các đơn vị xử lý trung tâm (CPU) và đơn vị xử lý đồ họa (GPU) để xử lý các yêu cầu tính toán của trí tuệ nhân tạo tạo sinh. Tuy nhiên, khi áp dụng vào trí tuệ nhân tạo tạo sinh trên thiết bị, các bộ vi xử lý này gặp phải những trở ngại đáng kể. CPU được thiết kế cho các tác vụ đa mục đích và thiếu kiến trúc chuyên dụng cần thiết để thực hiện hiệu quả và tiết kiệm năng lượng các khối lượng công việc của trí tuệ nhân tạo tạo sinh. Khả năng xử lý song song hạn chế của chúng dẫn đến giảm thông lượng, tăng độ trễ và tiêu thụ năng lượng cao hơn, làm cho chúng trở nên kém lý tưởng cho trí tuệ nhân tạo trên thiết bị. Ngược lại, dù GPU có thể vượt trội trong xử lý song song, chúng chủ yếu được thiết kế cho các tác vụ xử lý đồ họa. Để thực hiện hiệu quả các nhiệm vụ của trí tuệ nhân tạo tạo sinh, GPU cần các mạch tích hợp chuyên dụng, điều này tiêu thụ nhiều năng lượng và tạo ra nhiệt lượng đáng kể. Hơn nữa, kích thước vật lý lớn của chúng tạo ra những trở ngại cho việc sử dụng trong các ứng dụng trên thiết bị nhỏ gọn.
Sự Xuất Hiện của Các Đơn Vị Xử Lý Thần Kinh (NPU)
Để đối phó với những thách thức đã nêu trên, các đơn vị xử lý thần kinh (NPU) đang nổi lên như một công nghệ mang tính cách mạng để triển khai trí tuệ nhân tạo tạo sinh trên các thiết bị. Kiến trúc của các NPU chủ yếu được lấy cảm hứng từ cấu trúc và chức năng của bộ não con người, đặc biệt là cách mà các nơron và khớp thần kinh hợp tác để xử lý thông tin. Trong các NPU, các nơron nhân tạo hoạt động như các đơn vị cơ bản, mô phỏng các nơron sinh học bằng cách nhận đầu vào, xử lý chúng và tạo ra đầu ra. Các nơron này được kết nối với nhau thông qua các khớp thần kinh nhân tạo, truyền tín hiệu giữa các nơron với độ mạnh yếu khác nhau, điều chỉnh trong quá trình học tập. Điều này mô phỏng quá trình thay đổi trọng số khớp thần kinh trong não bộ.
Các NPU được tổ chức theo các lớp; lớp đầu vào nhận dữ liệu thô, lớp ẩn thực hiện xử lý trung gian, và lớp đầu ra tạo ra kết quả. Cấu trúc phân lớp này phản ánh khả năng xử lý thông tin đa giai đoạn và song song của não bộ. Vì trí tuệ nhân tạo tạo sinh cũng được xây dựng bằng cấu trúc tương tự của các mạng nơron nhân tạo, các NPU rất phù hợp để quản lý các khối lượng công việc của trí tuệ nhân tạo tạo sinh. Sự tương đồng về cấu trúc này giảm bớt nhu cầu về các mạch tích hợp chuyên dụng, dẫn đến các giải pháp gọn nhẹ hơn, tiết kiệm năng lượng hơn, nhanh hơn và bền vững hơn.
Đáp ứng Nhu cầu Tính Toán Đa Dạng của Trí Tuệ Nhân Tạo Tạo Sinh
Trí tuệ nhân tạo tạo sinh bao gồm một loạt các nhiệm vụ, bao gồm tổng hợp hình ảnh, tạo văn bản và sáng tác nhạc, mỗi nhiệm vụ đều có yêu cầu tính toán đặc biệt riêng của nó. Ví dụ, tổng hợp hình ảnh phụ thuộc nặng vào các phép toán ma trận, trong khi tạo văn bản liên quan đến xử lý tuần tự. Để đáp ứng hiệu quả cho các nhu cầu tính toán đa dạng này, các đơn vị xử lý thần kinh (NPU) thường được tích hợp vào công nghệ Hệ thống trên Chip (SoC) cùng với CPUs và GPUs.
Mỗi loại bộ vi xử lý này đều có những điểm mạnh riêng trong tính toán. CPUs đặc biệt giỏi trong kiểm soát tuần tự và khả năng phản ứng ngay lập tức, GPUs vượt trội trong xử lý song song dữ liệu, và NPUs được điều chỉnh tinh chỉnh cho các hoạt động trí tuệ nhân tạo cốt lõi, xử lý các phép toán ma trận, vector và tensor. Bằng cách tận dụng kiến trúc tính toán không đồng nhất, các nhiệm vụ có thể được giao cho các bộ vi xử lý dựa trên điểm mạnh và yêu cầu cụ thể của nhiệm vụ đang xử lý.
NPUs, được tối ưu hóa cho các khối lượng công việc trí tuệ nhân tạo, có thể hiệu quả giảm bớt các nhiệm vụ trí tuệ nhân tạo khỏi CPU chính. Việc giảm bớt này không chỉ đảm bảo các hoạt động nhanh chóng và tiết kiệm năng lượng mà còn tăng tốc các nhiệm vụ suy luận trí tuệ nhân tạo, cho phép các mô hình trí tuệ nhân tạo tạo sinh hoạt động trơn tru hơn trên thiết bị. Với NPUs xử lý các nhiệm vụ liên quan đến trí tuệ nhân tạo, CPUs và GPUs có thể tự do phân bổ tài nguyên cho các chức năng khác, từ đó tăng cường hiệu suất tổng thể ứng dụng trong khi duy trì hiệu suất nhiệt độ.
Các Ví dụ Thực Tế về NPUs
Sự tiến bộ của NPUs đang thu hút sự chú ý. Dưới đây là một số ví dụ thực tế về NPUs:
Hexagon NPUs của Qualcomm được thiết kế đặc biệt để tăng tốc các nhiệm vụ suy luận trí tuệ nhân tạo trên các thiết bị có nguồn điện thấp và tài nguyên hạn chế. Nó được xây dựng để xử lý các nhiệm vụ trí tuệ nhân tạo tạo sinh như tạo văn bản, tổng hợp hình ảnh và xử lý âm thanh. Hexagon NPU được tích hợp vào các nền tảng Snapdragon của Qualcomm, cung cấp thực thi hiệu quả của các mô hình mạng nơ-ron trên các thiết bị sử dụng sản phẩm trí tuệ nhân tạo của Qualcomm.
Apple’s Neural Engine là một thành phần chính của các vi xử lý dòng chip A-series và M-series, cung cấp năng lực cho các tính năng dựa trên trí tuệ nhân tạo như Face ID, Siri và thực tế tăng cường (AR). Neural Engine gia tăng tốc độ các nhiệm vụ như nhận diện khuôn mặt để bảo mật Face ID, xử lý ngôn ngữ tự nhiên cho Siri, và cải thiện theo dõi đối tượng và hiểu cảnh cho các ứng dụng AR. Nó đáng kể tăng cường hiệu suất của các nhiệm vụ liên quan đến trí tuệ nhân tạo trên các thiết bị của Apple, mang lại trải nghiệm người dùng mượt mà và hiệu quả.
NPU của Samsung là một bộ vi xử lý chuyên dụng được thiết kế cho tính toán trí tuệ nhân tạo, có khả năng xử lý hàng ngàn tính toán đồng thời. Được tích hợp vào các chip Samsung Exynos SoCs mới nhất, cung cấp công nghệ NPU này cho các tính toán trí tuệ nhân tạo tạo sinh năng lượng thấp và tốc độ cao. Công nghệ NPU của Samsung cũng được tích hợp vào các dòng TV cao cấp, mang lại sáng tạo âm thanh dựa trên trí tuệ nhân tạo và tăng cường trải nghiệm người dùng.
Kiến trúc Da Vinci của Huawei là trục chính của vi xử lý trí tuệ nhân tạo Ascend của họ, được thiết kế để nâng cao sức mạnh tính toán AI. Kiến trúc này tận dụng động cơ tính toán 3D cube hiệu suất cao, mang lại sức mạnh cho các khối lượng công việc AI.
Thay lời kết
Trí tuệ nhân tạo tạo sinh đang biến đổi cách chúng ta tương tác với các thiết bị và định nghĩa lại công nghệ điện toán. Thách thức của việc chạy trí tuệ nhân tạo tạo sinh trên các thiết bị có tài nguyên tính toán hạn chế là rất lớn, và các CPU và GPU truyền thống thường không đáp ứng được. Các đơn vị xử lý thần kinh (NPUs) cung cấp một giải pháp hứa hẹn với kiến trúc chuyên biệt được thiết kế để đáp ứng nhu cầu của trí tuệ nhân tạo tạo sinh. Bằng cách tích hợp NPUs vào công nghệ Hệ thống trên Chip (SoC) cùng với CPUs và GPUs, chúng ta có thể tận dụng những điểm mạnh của từng bộ vi xử lý, dẫn đến hiệu suất trí tuệ nhân tạo nhanh hơn, hiệu quả hơn và bền vững hơn trên các thiết bị. Khi NPUs tiếp tục tiến hóa, chúng sẽ nâng cao khả năng trí tuệ nhân tạo trên thiết bị, làm cho các ứng dụng trở nên nhanh hơn và tiết kiệm năng lượng hơn.