Tác giả Anshu
Xuất bản trên Blog của ThirdAI
Goldman Sachs đã phát hành một báo cáo có tiêu đề “GEN AI: CHI TIÊU QUÁ NHIỀU, LỢI ÍCH QUÁ ÍT?” nêu lên những lo ngại về tiềm năng của AI tạo sinh. Báo cáo này tóm tắt những quan sát sau hơn một năm nỗ lực tốn kém của các ngành công nghiệp hàng đầu để đưa GenAI vào sản xuất, nhưng với thành công hạn chế. Điều này ngày càng trở nên rõ ràng rằng GenAI, giống như AI truyền thống, phải đối mặt với những thách thức đáng kể khi mở rộng quy mô từ nguyên mẫu và bản demo đến các hệ thống sản xuất có thể tác động trực tiếp đến kết quả kinh doanh thực tế.
Đối với các đội nhóm và doanh nghiệp đã trải nghiệm thành công của AI, không có nghi ngờ gì về việc đây là một công nghệ đột phá với những thành tựu đáng kể tiếp tục được cải thiện theo thời gian. Tuy nhiên, những đội nhóm này cũng hiểu rằng việc khai thác giá trị từ AI đòi hỏi một sự tinh tế nhất định. Các nhà lãnh đạo doanh nghiệp, đặc biệt, phải tập trung vào những khác biệt tinh vi đòi hỏi sự điều tra và giám sát cẩn thận để đảm bảo rằng họ đang đi đúng hướng.
Dưới đây, tôi sẽ tóm tắt một số điểm khác biệt chính giữa các đội nhóm có sản phẩm thành công dựa trên AI với những đội nhóm chỉ thêm AI vào các sản phẩm hiện có của họ, dẫn đến lợi ích hạn chế và sau đó là những khó khăn trong việc biện minh cho chi phí của AI.
Phân biệt 1: Ưu tiên Triển khai Kiểm soát hơn Nguyên mẫu AI
Những người thực hành AI có kinh nghiệm biết rằng con đường nhanh nhất để đưa vào sản xuất là làm ngược lại — bắt đầu với một phiên bản cơ bản, đầu-cuối, mang lại giá trị ban đầu cho khách hàng. Triển khai nó để thử nghiệm trong môi trường kiểm soát, sử dụng quy trình linh hoạt và lặp đi lặp lại để tinh chỉnh hệ thống dựa trên phản hồi và số liệu thực tế. Thử nghiệm A/B trực tiếp là rất quan trọng trong giai đoạn này, cho phép đánh giá các mô hình và chiến lược AI trong điều kiện thực tế.
Việc lựa chọn mô hình và nền tảng AI quyết định khả năng mở rộng, độ trễ, di chuyển dữ liệu và chi phí của giải pháp. Độ chính xác của AI là có thể thay đổi, và nó thường được cải thiện theo thời gian thông qua các lần lặp lại. Các ràng buộc kinh doanh như độ trễ trong thương mại điện tử là không thể thương lượng. Ví dụ, người ta biết rằng ngay cả một độ trễ 100ms trong kết quả tìm kiếm cũng có thể giảm tỷ lệ giữ chân khách hàng xuống 1%, dẫn đến việc nhiều nền tảng thương mại điện tử chọn các mô hình ít chính xác hơn nhưng nhanh hơn.
Số liệu Đánh giá Thực tế, Không chỉ là Lý thuyết: Khi đã ở giai đoạn triển khai, trọng tâm có thể chuyển sang độ chính xác của các mô hình AI, cho phép hoán đổi và so sánh các chiến lược khác nhau. Cho đến giai đoạn này, không thể ước tính chính xác tác động thực sự của AI hoặc nắm bắt đúng các số liệu quan sát được, như sự tương tác, nhấp chuột ngầm và phản hồi. Cách tiếp cận này chuyển sự tập trung từ các số liệu lý thuyết sang các số liệu chuyển đổi trực tiếp thành kết quả kinh doanh.
Dựa vào các nguyên mẫu AI với các chuẩn đánh giá lý thuyết cho sản xuất là một chiến lược sai lầm. Các hệ thống AI thành công — như ChatGPT, Google’s Gemini, hoặc Claude của Anthropic — phát triển thông qua quá trình tinh chỉnh liên tục, dựa trên việc sử dụng thực tế. Theo thời gian, chúng đạt được một trạng thái cân bằng gần như hoàn hảo, liên tục cung cấp giá trị cao cho người dùng. Google Search, chẳng hạn, phát triển hàng ngày dựa trên tương tác của người dùng. Đáng chú ý, các phiên bản ChatGPT trước đó, tức GPT-1 và GPT-2, không phải là những người biểu diễn hàng đầu trên các chuẩn đánh giá, nhưng cách tiếp cận AI-first của chúng cho phép chúng phát triển nhanh chóng. Các nguyên mẫu đơn giản có thể phù hợp cho các bài tập học thuật, nhưng chúng thường gây hiểu lầm cho các đội nhóm tập trung vào sản xuất.
Phân biệt 2: Tập trung vào Toàn bộ Hệ thống AI, Không chỉ là Mô hình
Đầu tư vào cơ sở hạ tầng AI và các thí nghiệm PoC mà không xem xét đến các chi phí đầu-cuối, độ trễ, di chuyển dữ liệu và yêu cầu phần cứng có thể sẽ ngăn cản việc đưa vào sản xuất. Ví dụ, nếu một pipeline RAG có độ trễ 1 giây cho mỗi triệu tài liệu mà không có cách nào để đạt được cải thiện 10 lần, hoặc nếu nó yêu cầu nhân bản dữ liệu qua nhiều địa điểm, nó sẽ không thể mở rộng. Các giải pháp AI không được tối ưu hóa cho các ứng dụng cụ thể — như thương mại điện tử hoặc bảo mật — có khả năng thất bại do độ trễ cuộc gọi mạng vượt quá giới hạn sản xuất.
ChatGPT là một ví dụ điển hình về sự cần thiết phải tập trung vào toàn bộ hệ thống. Nó không chỉ là một mô hình AI đơn lẻ mà là một hệ thống phức tạp với nhiều thành phần, chẳng hạn như hiểu truy vấn, định tuyến mô hình chuyên gia, xử lý hậu kỳ phản hồi và cơ chế phản hồi. Hệ thống này liên tục phát triển với dữ liệu sử dụng và sự đóng góp của con người. Xem ChatGPT chỉ như một mô hình AI duy nhất là một quan niệm sai lầm; dựa vào một mô hình duy nhất để cung cấp độ phức tạp như vậy chắc chắn sẽ thất bại.
Phân biệt 3: Cách Tiếp cận Đầu-cuối AI-First so với Nhiều Thành phần Từng Phần — Ít Thành phần hơn đồng nghĩa với Nhiều Kiểm soát hơn, Trách nhiệm rõ ràng hơn và Độ Chính xác cũng Cao hơn
Hãy xem xét ví dụ phổ biến về một pipeline RAG (Retrieval-Augmented Generation). Giả sử chúng ta sử dụng ba thành phần khác nhau: một cho embedding, một cho cơ sở dữ liệu vector, và một cho việc xếp hạng lại, mỗi thành phần được quản lý bởi các đội nhóm riêng biệt. Sau khi tích hợp các thành phần này, chúng ta có thể thấy rằng độ chính xác kém và hệ thống chậm hơn năm lần so với dự kiến.
Trong trường hợp này, các vấn đề về độ chính xác có thể bị đổ lỗi cho bất kỳ thành phần nào: mô hình xếp hạng lại, mô hình embedding, hoặc hàm tương đồng của cơ sở dữ liệu vector. Ngoài ra, rất khó để xác định đội nhóm nào chịu trách nhiệm cho vấn đề độ trễ. Tình huống này dẫn đến những cuộc đổ lỗi không dứt, và các nhà lãnh đạo doanh nghiệp, những người chịu trách nhiệm về thời gian và sản phẩm, gặp khó khăn trong việc xác định và hiểu nguyên nhân gốc rễ của các vấn đề. Kết quả là, các cuộc tranh luận tiếp diễn mà không có giải pháp vì quyền sở hữu và trách nhiệm không rõ ràng.
Tuy nhiên, việc sử dụng một hệ thống AI-first đầu-cuối duy nhất như Cơ sở Dữ liệu Thần kinh (Neural Database), thay thế tất cả ba thành phần bằng một mạng nơ-ron học để lập chỉ mục, giúp việc xác định nguyên nhân trở nên đơn giản. Để cải thiện độ chính xác và giảm thời gian suy luận, chúng ta chỉ cần tinh chỉnh mạng nơ-ron và làm cho quá trình suy luận của nó nhanh hơn. Việc tinh chỉnh này thậm chí có thể được thực hiện bởi nhân viên sử dụng giao diện người dùng đơn giản, loại bỏ nhu cầu về nhà phát triển hoặc chuyên gia khoa học dữ liệu. Nếu xảy ra sai sót trong việc truy xuất, nó có thể được khắc phục trong vài phút.
Phân biệt 4: Tránh Các Giải pháp AI mà Việc Tùy chỉnh Cao chỉ là Cuộc Thảo luận trong Tương lai — Độ Chính xác Zero-Shot không Sẵn sàng cho Kinh doanh
Hầu hết các doanh nghiệp yêu cầu AI được tùy chỉnh cao phù hợp với các vấn đề cụ thể và các chuyên môn lĩnh vực của họ để thực sự hữu ích. Tuy nhiên, ở giai đoạn đầu này, cách tiếp cận phổ biến đã là xây dựng một nguyên mẫu GenAI với khả năng zero-shot, đánh giá giá trị của nó và sau đó hy vọng rằng cộng đồng sẽ giải quyết nhu cầu tùy chỉnh trong tương lai. Sau khoảng một năm thử nghiệm, các doanh nghiệp đang nhận thấy rằng nếu không có tùy chỉnh cao, GenAI sẽ không thể được đưa vào sản xuất. Độ chính xác zero-shot không đáp ứng được kỳ vọng, đặc biệt là khi mở rộng quy mô.
Tệ hơn, cơ sở hạ tầng được xây dựng cho các nguyên mẫu này quá cứng nhắc, khiến việc tích hợp tinh chỉnh hoặc tùy chỉnh cao trở nên khó khăn — cả hai đều là cần thiết cho triển khai sản xuất. Thậm chí, những thay đổi nhỏ đối với các mô hình truy xuất hoặc NLP có thể gây ra các chu kỳ thay đổi mã, sửa lỗi, kiểm tra và triển khai lại kéo dài hàng tháng. Hơn nữa, không có gì đảm bảo rằng mô hình được triển khai lại sẽ đáp ứng các ràng buộc kỹ thuật như độ trễ, có thể yêu cầu tối ưu hóa hoàn toàn lại.
Chúng tôi đã nêu bật các vấn đề cơ bản với các mô hình embedding và cơ sở dữ liệu vector trong một bài blog trước. Rõ ràng, nếu chúng ta xây dựng một pipeline RAG với các mô hình embedding và một cơ sở dữ liệu vector, và bây giờ cần nâng cấp các mô hình embedding, chúng ta buộc phải xây dựng lại toàn bộ cơ sở dữ liệu vector. Hơn nữa, các yêu cầu bộ nhớ của việc lưu trữ embedding và cơ sở dữ liệu vector là cấm kỵ cho các ứng dụng ở quy mô lớn. Vì vậy, việc xây dựng lại cơ sở dữ liệu vector mỗi khi chúng ta có một cập nhật nhỏ trong các mô hình embedding là điều mà không ai quan tâm trong quá trình tạo mẫu zero-shot, và bây giờ họ mắc kẹt với một ngăn xếp cứng nhắc, nơi việc tùy chỉnh là cấm kỵ.
Cuối cùng — Lời kêu gọi Hành động cho các Nhà lãnh đạo Doanh nghiệp:
Đối với các nhà lãnh đạo chịu trách nhiệm quản lý việc giao sản phẩm và thời gian hoàn thành, việc hiểu rõ bốn điểm phân biệt quan trọng được mô tả ở trên và những chi tiết tinh tế của chúng là vô cùng quan trọng. Ngày càng rõ ràng rằng các nhà lãnh đạo phải đặt ra nhiều câu hỏi khó trước khi cam kết thời gian và nguồn lực vào các dự án AI. Dù bạn đang cân nhắc giữa mã nguồn mở và mã nguồn đóng, xây dựng hay mua, hoặc phần mềm so với tư vấn, bốn điểm phân biệt này là nền tảng cho một chiến lược AI thành công.
Trong blog tiếp theo, chúng tôi sẽ đi sâu vào một nền tảng mà chúng tôi đã phát triển dành riêng cho lĩnh vực này — nền tảng của ThirdAI để xây dựng các Agent AI tùy chỉnh cao với quy mô và độ trễ vô song. Chúng tôi sẽ khám phá cách nó trao quyền cho các đơn vị kinh doanh trực tiếp đạt được bốn điểm phân biệt chính mà không cần đội ngũ chuyên gia AI/ML — vì những điểm này đã được tích hợp vào thiết kế của nó. Hãy đón chờ!