Bởi Mauricio Arancibia
CodeX
Giới thiệu
Năm 2024 đang hình thành thành một năm đột phá đối với các mô hình ngôn ngữ lớn chạy cục bộ (LLMs). Khi các LLMs dựa trên đám mây như GPT-3.5/GPT-4 tiếp tục phát triển, việc chạy trí tuệ nhân tạo ngôn ngữ mạnh mẽ trên các thiết bị cục bộ trở nên khả thi và hấp dẫn hơn. Việc thực hiện cục bộ của các LLMs có thể biến đổi cách các doanh nghiệp nhỏ, nhà phát triển và người dùng hàng ngày hưởng lợi từ trí tuệ nhân tạo.
Với phần cứng tính toán cục bộ và các phương pháp tối ưu hóa được cải thiện, hiện nay có thể chạy các mô hình mạng nơ-ron lớn cục bộ mà không cần phụ thuộc vào đám mây. Sự tiến hóa này có thể sẽ tăng tốc vào năm 2024 và sau này. Nhược điểm của sự phụ thuộc vào đám mây đang thúc đẩy cả các doanh nghiệp khởi nghiệp lẫn các tập đoàn công nghệ đổi mới trong việc đưa thêm khả năng trí tuệ nhân tạo trực tiếp vào thiết bị của người dùng.
Nếu các xu hướng hiện tại tiếp tục, vào cuối năm 2024, LLMs có thể chuyển từ việc trở thành các dịch vụ đám mây độc quyền sang việc trở thành các tiện ích phổ biến được truy cập cục bộ trên điện thoại thông minh, máy tính cá nhân và hệ thống nhúng. Việc phổ cập truy cập theo cách này có thể loại bỏ các rào cản về chi phí và quyền riêng tư đối với việc áp dụng trí tuệ nhân tạo cho nhiều ứng dụng. Cuộc cách mạng LLM cục bộ đang chuẩn bị trở thành một trong những câu chuyện trí tuệ nhân tạo lớn nhất của năm 2024.
GPU Đa Mục Đích
Các đơn vị xử lý đồ họa (GPU) được thiết kế cho đồ họa 3D đã chứng minh hiệu suất đáng kinh ngạc trong việc chạy mạng nơ-ron cho học máy. GPU chứa hàng nghìn lõi tính toán nhỏ hiệu quả một cách song song, lý tưởng cho các phép tính ma trận. Khi các GPU tiêu dùng tiếp tục phát triển cho các công việc chơi game và đồ họa, chúng cũng trở nên ngày càng có khả năng chạy các mạng nơ-ron tiên tiến trên thiết bị cục bộ.
Nvidia và AMD hiện nay đều cung cấp các nền tảng GPU có thể tiếp cận được cho người dùng hàng ngày có thể chạy các mô hình với hàng trăm triệu tham số. Ví dụ, GPU laptop Nvidia RTX 4080 ra mắt vào năm 2023 cung cấp lên đến 14 teraflops công suất có thể được tận dụng cho suy luận trí tuệ nhân tạo. Khi các GPU tiêu dùng trở nên chuyên biệt hơn cho học máy với các tối ưu hóa như hỗ trợ thưa thớt, chúng sẽ trở nên ngày càng phù hợp hơn cho việc thực thi LLM cục bộ.
Tốc độ phát triển nhanh chóng của GPU tiêu dùng được thúc đẩy bởi ngành công nghiệp chơi game trên PC sẽ cho phép các cải tiến tiếp tục trong khả năng trí tuệ nhân tạo trên thiết bị. Bằng cách điều chỉnh các phương pháp như lượng tử hóa và nén mô hình để tận dụng đầy đủ kiến trúc GPU, hiệu suất LLM cục bộ có thể tăng đáng kể qua năm 2024 và xa hơn.
NVIDIA đã gần đây giới thiệu Chat với RTX (Xây dựng một LLM Tùy chỉnh với Chat với RTX | NVIDIA), một chatbot trí tuệ nhân tạo cục bộ đột phá chạy trên các máy tính Windows được trang bị GPU NVIDIA GeForce RTX series 30 hoặc cao hơn. Điều này đánh dấu một bước quan trọng rời xa sự phụ thuộc vào các chatbot trí tuệ nhân tạo dựa trên đám mây.
Các tính năng chính của Chat với RTX bao gồm:
- Xử lý cục bộ trên thiết bị của người dùng để có phản hồi nhanh, thấp trễ mà không gặp vấn đề kết nối
- Tích hợp đa phương tiện, đặc biệt là với YouTube, để có phản hồi ngữ cảnh
- Khả năng tùy chỉnh và cá nhân hóa dựa trên tài liệu và sở thích của người dùng
- Thân thiện với nhà phát triển với một cuộc thi để khuyến khích sáng tạo
Tổng thể, Chat với RTX đại diện cho một bước tiến hứa hẹn hướng tới trí tuệ nhân tạo dễ tiếp cận và linh hoạt hơn bằng cách tận dụng sức mạnh của các GPU cục bộ. Nó cho thấy một cái nhìn sơ bộ về tương lai, nơi trí tuệ nhân tạo tạo ra một phần không thể tách rời của cuộc sống hàng ngày cho một loạt các ứng dụng cá nhân hóa.
LLMs Cục Bộ so với LLMs Đám Mây
LLMs cục bộ cung cấp khả năng xử lý ngôn ngữ tự nhiên mà không cần phụ thuộc vào kết nối internet đến các dịch vụ đám mây. Điều này tương phản với mô hình chủ đạo hiện nay của các mô hình trí tuệ nhân tạo lớn như GPT-3.5/GPT4 được lưu trữ trên đám mây. Các công ty cung cấp truy cập API vào các LLMs đám mây này với một khoản phí. Với LLMs cục bộ, mô hình nằm trên thiết bị của người dùng. Điều này tránh được các chi phí, độ trễ và mối quan tâm về quyền riêng tư liên quan đến các LLMs đám mây. Tuy nhiên, LLMs cục bộ hiện nay đã tồn tại khoảng cách về kích thước và khả năng so với các mô hình đám mây lớn nhất.
Khi tính toán cục bộ cải thiện, khoảng cách về hiệu suất giữa các LLMs cục bộ và đám mây đang thu hẹp lại. Các LLMs dựa trên đám mây được hưởng lợi từ tài nguyên rộng lớn, nhưng cũng phải xử lý các lượng truy vấn lớn. Điều này có thể dẫn đến độ trễ biến đổi. Các LLMs chạy cục bộ có thể được tối ưu hóa cụ thể cho nền tảng triển khai của họ. Đối với nhiều ứng dụng thực tế, một LLM cục bộ có kích thước vừa phải cung cấp chất lượng đủ với độ phản hồi tối đa.
Tuy nhiên, các LLMs cục bộ cũng có các sự đánh đổi. Hiệu suất của chúng phụ thuộc vào phần cứng có sẵn không dễ dàng nâng cấp. Việc liên tục cập nhật các LLMs đám mây với dữ liệu đào tạo mới là dễ dàng hơn. Nhưng để bảo vệ quyền riêng tư trong khi vẫn giữ lại tính hữu ích, có lẽ các LLMs cục bộ sẽ thay thế sự phụ thuộc vào đám mây cho nhiều người dùng vào năm 2024 và sau này.
Mối Quan Ngại về Quyền Riêng Tư Dữ Liệu
Một trong những yếu tố thúc đẩy sự quan tâm đến LLM cục bộ là sự lo ngại ngày càng tăng về quyền riêng tư dữ liệu. Khi người dùng tương tác với các LLM đám mây, dữ liệu cá nhân của họ được gửi đến nhà cung cấp API. Dữ liệu này có thể bị lợi dụng, bán đi, hoặc được sử dụng để đào tạo các mô hình mới mà không có sự đồng ý của người dùng. Các LLM cục bộ giữ tất cả quá trình xử lý tự chứa. Điều này phù hợp với quan điểm nghiêm ngặt về quyền riêng tư của Apple.
Dù các LLM đám mây có vẻ tuyệt vời, chúng cho phép thu hoạch mù mờ dữ liệu của người dùng, bao gồm các cuộc trò chuyện riêng tư. Sự không tin càng tăng lên, đặc biệt sau khi tiết lộ rằng Meta đã cung cấp quyền truy cập cho Zuckerberg vào thông tin người dùng riêng tư. Không có bảo đảm rằng các nhà cung cấp đám mây sẽ quản lý dữ liệu một cách đạo đức.
Các LLM cục bộ giảm thiểu các mối quan ngại này thông qua việc thiết kế dựa trên việc giảm thiểu dữ liệu. Dữ liệu người dùng không bao giờ rời khỏi thiết bị của họ. Điều này mang lại sự kiểm soát hoàn toàn về cách mà bất kỳ dữ liệu đào tạo nào được sử dụng. Việc kích hoạt sự hỗ trợ trí tuệ nhân tạo trong khi quản lý các rủi ro về quyền riêng tư sẽ là điều cần thiết cho việc áp dụng LLM cục bộ.
Mô hình Ngôn ngữ Nhỏ so với LLMs
Mặc dù các LLM toàn diện đang trở nên hiệu quả hơn, chúng vẫn đòi hỏi tài nguyên tính toán đáng kể không có sẵn trên hầu hết các thiết bị. Điều này đã kích thích sự quan tâm đến các mô hình ngôn ngữ nhỏ chạy cục bộ (SLMs) được tinh chỉnh cho các nhiệm vụ cụ thể. SLMs có thể cung cấp sự hỗ trợ hữu ích trong khi phù hợp với các ràng buộc phần cứng. Việc tinh chỉnh SLMs mã nguồn mở trên dữ liệu chuyên ngành có thể cho phép trí tuệ nhân tạo cục bộ được tùy chỉnh cho các doanh nghiệp nhỏ.
Đối với các thiết bị và ứng dụng tiêu dùng, các mô hình với quy mô từ vài gigabyte là điểm lý tưởng cung cấp đủ sức biểu đạt cho việc hỗ trợ cơ bản như tìm kiếm và tạo nội dung. Những mô hình nhỏ này có thể chạy phản hồi trên phần cứng có sẵn. Các LLM cục bộ lớn hơn với hàng tỷ tham số thường là quá mạnh mẽ đối với hầu hết các nhu cầu.
Sự tiến bộ nhanh chóng trong nghiên cứu tối ưu hóa mô hình đang làm cho SLMs nhỏ ngày càng trở nên thực tế hơn. Lượng tử hóa, cắt tỉa, trích xuất kiến thức và sự chú ý hiệu quả cho phép SLMs cung cấp hiệu suất hữu ích sử dụng ít tài nguyên hơn. Khi các phương pháp cải thiện hơn nữa, các mô hình có dung lượng từ 100MB-1GB có thể đạt được khả năng trò chuyện mới qua năm 2024.
Apple AI sẽ đến trong một thời gian nào đó
Apple có vị trí độc đáo để dẫn đầu trong trí tuệ nhân tạo trên thiết bị. Apple Neural Engine có thể cho phép chạy các LLM cục bộ tiên tiến trên iPhone và Mac. Mở khả năng này cho các nhà phát triển sẽ làm tăng sức mạnh kiểm soát của Apple đối với trải nghiệm người dùng. Apple có thể công bố những tham vọng của mình trong lĩnh vực này vào năm 2024.
Sức mạnh của Apple trong kỹ thuật silic và thiết kế chip cho phép họ có các bộ xử lý trong nước được tinh chỉnh cho các nhiệm vụ như học máy. Với sự tích hợp giữa phần cứng và phần mềm, các thiết bị Apple cung cấp những ưu điểm về hiệu suất. Neural Engine thể hiện cam kết của Apple trong việc nâng cao trí thông minh trên thiết bị trong khi bảo vệ quyền riêng tư.
Việc đưa trí tuệ nhân tạo mạnh mẽ hơn trực tiếp vào hệ sinh thái của Apple phù hợp với chiến lược của họ. Dựa vào các dịch vụ đám mây có nguy cơ mất thị phần cho các đối thủ. Apple có tài nguyên để đào tạo các LLM tùy chỉnh vượt xa những gì người dùng có thể chạy cục bộ hiện nay. Triển khai một “Apple AI” trên phần cứng của họ có thể giữ cho người dùng đắm chìm trong thế giới của họ.
Tinh chỉnh SLMs cho các Nhu cầu Kinh doanh Tùy chỉnh
Các công ty nhỏ không nhất thiết cần trí tuệ nhân tạo hàng đầu, nhưng cần các trợ lý được tùy chỉnh cho lĩnh vực của họ. Bằng cách tinh chỉnh các SLM mã nguồn mở trên dữ liệu liên quan, các doanh nghiệp nhỏ có thể xây dựng các giải pháp độc đáo. Một SLM tìm kiếm nhà hàng địa phương hoặc một SLM dịch vụ khách hàng có thể cung cấp sự giúp đỡ đích đáng. Những mô hình được tinh chỉnh này có thể tiếp tục cải thiện trên dữ liệu cục bộ.
Sự đột phá của các LLMs là tính linh hoạt của chúng sau khi được đào tạo trên dữ liệu lớn. Các doanh nghiệp nhỏ có nhu cầu chuyên môn cụ thể được phục vụ tốt hơn bằng sự chuyên biệt. Tinh chỉnh sử dụng nền tảng SLM mã nguồn mở sau đó điều chỉnh nó cho các nhiệm vụ mới. Việc này tạo ra các trợ lý được tùy chỉnh thông qua dữ liệu cụ thể cho lĩnh vực.
Khi các SLMs chất lượng mã nguồn mở gia tăng, việc tinh chỉnh chúng cục bộ trên dữ liệu riêng tư có thể thúc đẩy sự áp dụng. Một địa điểm du lịch có thể nhận được các gợi ý địa phương độc đáo, hoặc một phòng khám cung cấp sắp xếp triệu chứng cá nhân hóa. Việc bảo vệ quyền riêng tư của người dùng và hình thành sự hỗ trợ theo mục tiêu của họ mang lại lợi thế cho các doanh nghiệp nhỏ hơn so với các dịch vụ đám mây một kích cỡ phù hợp cho tất cả.
Con đường phía trước…
Tóm lại, năm 2024 có thể chứng kiến sự phát triển mạnh mẽ của các LLM cục bộ. Các mô hình nhỏ trên thiết bị đã có thể xử lý các nhiệm vụ hữu ích ngay bây giờ. Khi công nghệ tiến bộ và các lựa chọn mã nguồn mở tăng lên, việc áp dụng các LLM cục bộ có thể được thúc đẩy nhanh chóng. Đối với các chủ doanh nghiệp nhỏ, những lợi ích của các trợ lý trí tuệ nhân tạo riêng tư, chi phí thấp sẽ là động lực mạnh mẽ. Năm 2024 có thể chỉ là điểm bắt đầu cho việc sử dụng rộng rãi các LLM cục bộ.
Cuộc cách mạng trí tuệ nhân tạo cục bộ có tiềm năng làm cho việc truy cập trở nên dân chủ hơn bằng cách loại bỏ các rào cản đám mây. Cá nhân, nhà phát triển và các công ty, cả lớn lẫn nhỏ, đều có thể tham gia. Khi điện thoại và máy tính được hỗ trợ từ trí tuệ nhân tạo cấp LLM ở cục bộ, có thể sẽ thay đổi cách chúng ta làm việc và sống. Tiềm năng là không giới hạn, và năm 2024 có vẻ sẽ là một năm quan trọng khi các LLM cục bộ tiến gần hơn tới phổ cập.