Trước khi ChatGPT của OpenAI xuất hiện và thu hút sự chú ý của thế giới bởi khả năng tạo ra những câu văn hấp dẫn, một công ty khởi nghiệp nhỏ tên là Latitude đã gây ấn tượng với người tiêu dùng bằng trò chơi AI Dungeon của họ, cho phép người chơi sử dụng trí tuệ nhân tạo để tạo ra những câu chuyện huyền diệu dựa trên những gợi ý của họ.
Nhưng khi AI Dungeon trở nên phổ biến hơn, CEO của Latitude, Nick Walton, nhớ lại rằng chi phí để duy trì trò chơi nhập vai dựa trên văn bản này bắt đầu tăng vọt. Phần mềm tạo văn bản của AI Dungeon được cung cấp bởi công nghệ ngôn ngữ GPT do phòng nghiên cứu trí tuệ nhân tạo OpenAI, được Microsoft hậu thuẫn. Càng có nhiều người chơi AI Dungeon, chi phí mà Latitude phải trả cho OpenAI càng lớn.
Thêm vào tình cảnh khó khăn là Walton cũng phát hiện ra các nhà tiếp thị nội dung đang sử dụng AI Dungeon để tạo ra bản sao quảng cáo, một cách sử dụng cho AI Dungeon mà đội ngũ của ông không bao giờ dự đoán, nhưng đã làm tăng thêm chi phí cho công ty.
Tại đỉnh cao vào năm 2021, Walton ước tính Latitude đã tiêu tốn gần 200,000 đô la mỗi tháng cho phần mềm trí tuệ nhân tạo sinh sản, hay còn gọi là generative AI của OpenAI và dịch vụ Amazon Web Services để đáp ứng hàng triệu yêu cầu của người dùng mỗi ngày.
“Chúng tôi đùa rằng chúng tôi có nhân viên con người và chúng tôi có nhân viên trí tuệ nhân tạo, và chúng tôi đã tiêu hàng trăm nghìn đô la mỗi tháng cho trí tuệ nhân tạo và chúng tôi không phải là một công ty khởi nghiệp lớn, nên đó là một chi phí rất lớn,” Walton nói.
Đến cuối năm 2021, Latitude đã chuyển từ việc sử dụng phần mềm GPT của OpenAI sang một phần mềm ngôn ngữ rẻ hơn nhưng vẫn đủ mạnh do công ty khởi nghiệp AI21 Labs cung cấp, Walton cho biết. Ông cũng thêm rằng công ty khởi nghiệp này đã tích hợp các mô hình ngôn ngữ mã nguồn mở và miễn phí vào dịch vụ của mình để giảm chi phí. Hóa đơn trí tuệ nhân tạo sinh sản của Latitude đã giảm xuống dưới 100,000 đô la mỗi tháng, Walton cho biết, và công ty khởi nghiệp tính phí đăng ký hàng tháng cho người chơi để sử dụng các tính năng trí tuệ nhân tạo tiên tiến hơn nhằm giúp giảm chi phí.
Những hóa đơn trí tuệ nhân tạo đắt đỏ của Latitude nhấn mạnh một sự thật không dễ chịu đằng sau sự bùng nổ gần đây của các công nghệ trí tuệ nhân tạo sinh sản: Chi phí để phát triển và duy trì phần mềm có thể cực kỳ cao, cả cho các công ty phát triển các công nghệ cơ bản, thông thường được gọi là các mô hình ngôn ngữ lớn hoặc mô hình nền, và những công ty sử dụng trí tuệ nhân tạo để đưa vào hoạt động phần mềm của riêng họ.
Chi phí đắt đỏ của học máy là một sự thực không thoải mái trong ngành này khi các nhà đầu tư mạo hiểm nhắm đến các công ty có thể có giá trị hàng nghìn tỷ đô la, và các công ty lớn như Microsoft, Meta và Google sử dụng số vốn lớn của họ để phát triển sự ưu thế trong công nghệ mà các đối thủ nhỏ không thể theo kịp.
Nhưng nếu tỷ suất lợi nhuận cho các ứng dụng trí tuệ nhân tạo luôn nhỏ hơn so với tỷ suất lợi nhuận của các phần mềm dưới dạng dịch vụ trước đây, do chi phí tính toán cao, điều này có thể làm giảm sự bùng nổ hiện tại.
Chi phí đào tạo và “suy luận” – thực tế là chạy – các mô hình ngôn ngữ lớn là một chi phí cơ bản khác biệt so với các cuộc bùng nổ tính toán trước đây. Ngay cả khi phần mềm được xây dựng hoặc đào tạo, nó vẫn đòi hỏi một lượng lớn công suất tính toán để chạy các mô hình ngôn ngữ lớn vì chúng thực hiện hàng tỷ phép tính mỗi khi trả về một phản hồi cho một yêu cầu. So với việc cung cấp ứng dụng hoặc trang web, việc tính toán ít hơn nhiều.
Các phép tính này cũng đòi hỏi phần cứng chuyên dụng. Trong khi các bộ xử lý máy tính truyền thống có thể chạy các mô hình học máy, chúng rất chậm. Hiện nay, hầu hết việc đào tạo và suy luận được thực hiện trên bộ xử lý đồ họa, hay GPU, ban đầu được thiết kế cho trò chơi 3D, nhưng đã trở thành tiêu chuẩn cho các ứng dụng trí tuệ nhân tạo vì chúng có thể thực hiện nhiều phép tính đơn giản cùng lúc. NVIDIA là hãng sản xuất phần lớn GPU cho ngành công nghiệp trí tuệ nhân tạo, và con chip chủ lực của họ trong trung tâm dữ liệu có giá 10,000 đô la. Những nhà khoa học xây dựng các mô hình này thường đùa rằng họ “làm chảy GPU”.
Quá trình huấn luyện các mô hình ngôn ngữ lớn
Các nhà phân tích và kỹ sư công nghệ ước tính rằng quá trình quan trọng để huấn luyện một mô hình ngôn ngữ lớn như GPT-3 của OpenAI có thể tốn hơn 4 triệu đô la. Các mô hình ngôn ngữ tiên tiến hơn có thể tốn hơn “hơn mức vài triệu đô la” để huấn luyện, theo lời của Rowan Curran, một nhà phân tích của Forrester chuyên về trí tuệ nhân tạo và học máy.
Ví dụ, mô hình LLaMA lớn nhất của Meta được ra mắt vào tháng trước sử dụng 2.048 GPU Nvidia A100 để huấn luyện với 1,4 nghìn tỷ mã thông báo (750 từ tương đương 1.000 mã thông báo), mất khoảng 21 ngày, theo thông tin từ công ty khi ra mắt mô hình. Việc này mất khoảng 1 triệu giờ GPU để huấn luyện. Với giá dành riêng từ AWS, chi phí này sẽ lên tới hơn 2,4 triệu đô la. Với 65 tỷ tham số, nó nhỏ hơn các mô hình GPT hiện tại của OpenAI, như ChatGPT-3, có 175 tỷ tham số.
Clement Delangue, CEO của công ty khởi nghiệp trí tuệ nhân tạo Hugging Face, cho biết quá trình huấn luyện mô hình ngôn ngữ lớn Bloom của công ty đã mất hơn hai tháng rưỡi và yêu cầu truy cập vào một siêu máy tính tương đương với “khoảng 500 GPU.”
Các tổ chức xây dựng các mô hình ngôn ngữ lớn phải thận trọng khi huấn luyện lại phần mềm, giúp cải thiện khả năng của nó, vì điều này tốn rất nhiều chi phí, ông nói.
“Quan trọng là nhận ra rằng các mô hình này không được huấn luyện liên tục, như hàng ngày,” Delangue nói, lưu ý đó là lý do tại sao một số mô hình, như ChatGPT, không biết về các sự kiện gần đây. Delangue cho biết kiến thức của ChatGPT dừng lại vào năm 2021.
“Chúng tôi đang tiến hành huấn luyện phiên bản hai của Bloom và nó sẽ không tốn nhiều hơn 10 triệu đô la để huấn luyện lại,” Delangue nói. “Vì vậy, đó là loại việc mà chúng tôi không muốn thực hiện hàng tuần.”
Suy luận và người trả chi phí
Để sử dụng mô hình học máy đã được huấn luyện để đưa ra dự đoán hoặc tạo văn bản, kỹ sư sử dụng mô hình trong quá trình được gọi là “suy luận”, điều này có thể đắt hơn nhiều so với việc huấn luyện vì có thể cần chạy hàng triệu lần cho một sản phẩm phổ biến.
Đối với một sản phẩm như ChatGPT – mà Công ty đầu tư UBS ước tính đã đạt đến 100 triệu người dùng hàng tháng vào tháng 1 – Curran tin rằng việc xử lý hàng triệu yêu cầu mà mọi người gửi vào phần mềm trong tháng đó có thể đã tốn OpenAI 40 triệu đô la.
Chi phí bùng nổ khi những công cụ này được sử dụng hàng tỷ lần mỗi ngày. Các nhà phân tích tài chính ước tính rằng trợ lý chatbot Bing của Microsoft, được cung cấp bởi một mô hình OpenAI ChatGPT, cần ít nhất 4 tỷ đô la hạ tầng để phục vụ các câu trả lời cho tất cả người dùng Bing.
Ví dụ về Latitude, dù công ty khởi nghiệp này không phải trả tiền để huấn luyện mô hình ngôn ngữ OpenAI cơ bản mà họ đang truy cập, nhưng họ phải tính đến các chi phí suy luận, gần như “nửa xu mỗi cuộc gọi” trên “một vài triệu yêu cầu mỗi ngày,” một phát ngôn viên của Latitude cho biết.
“Và tôi đã tính toán một cách tương đối thận trọng,” Curran nói về các tính toán của mình.
Để gieo mầm cho sự bùng nổ trí tuệ nhân tạo hiện tại, các nhà đầu tư mạo hiểm và các ông lớn công nghệ đã đầu tư hàng tỷ đô la vào các công ty khởi nghiệp chuyên về các công nghệ trí tuệ nhân tạo sinh sản. Chẳng hạn, Microsoft đã đầu tư tới 10 tỷ đô la vào OpenAI – người giám sát của GPT – theo các báo cáo truyền thông vào tháng 1. Công ty con của Salesforce, Salesforce Ventures, gần đây đã ra mắt quỹ 250 triệu đô la dành cho các công ty khởi nghiệp về trí tuệ nhân tạo sinh sản.
Như nhà đầu tư Semil Shah của các công ty mạo hiểm Haystack và Lightspeed Venture Partners miêu tả trên Twitter, “Tiền của các nhà đầu tư đã chuyển từ việc bù trừ giá xe taxi và giao hàng bánh burrito sang LLMs và tính toán trí tuệ nhân tạo sinh sản.”
Nhiều doanh nghiệp khởi nghiệp nhận thấy rủi ro khi dựa vào các mô hình trí tuệ nhân tạo có thể được bảo trợ mà họ không kiểm soát và chỉ trả tiền dựa trên cơ sở sử dụng.
“Khi tôi nói chuyện với bạn bè AI tại các hội nghị khởi nghiệp, đây là điều tôi nói với họ: Đừng chỉ phụ thuộc vào OpenAI, ChatGPT hoặc bất kỳ mô hình ngôn ngữ lớn nào khác,” Suman Kanuganti, người sáng lập personal.ai, một chatbot hiện đang ở chế độ beta. “Vì doanh nghiệp thay đổi, tất cả đều thuộc sở hữu của các công ty công nghệ lớn, phải không? Nếu họ cắt quyền truy cập, bạn sẽ mất điều đó.”
Các công ty như công ty công nghệ doanh nghiệp Conversica đang nghiên cứu cách sử dụng công nghệ thông qua dịch vụ đám mây Microsoft Azure với giá giảm hiện tại.
Trong khi CEO của Conversica, Jim Kaskade, từ chối bình luận về số tiền mà công ty khởi nghiệp đang trả, ông thừa nhận rằng giá giảm là rất hoan nghênh khi công ty đang tìm hiểu cách sử dụng mô hình ngôn ngữ một cách hiệu quả.
“Nếu họ thực sự muốn cân bằng, họ sẽ tính một số tiền rất nhiều hơn,” Kaskade nói.
Có thể thay đổi được gì
Có thể AI tính toán sẽ không còn đắt đỏ như ngành công nghiệp phát triển. Các công ty sản xuất các mô hình cơ sở, các nhà sản xuất bán dẫn và các công ty khởi nghiệp đều nhìn thấy cơ hội kinh doanh trong việc giảm giá chạy phần mềm trí tuệ nhân tạo.
Nvidia, có khoảng 95% thị trường chip AI, tiếp tục phát triển các phiên bản mạnh mẽ hơn, được thiết kế đặc biệt cho học máy, nhưng sự cải tiến về tổng công suất chip trên toàn ngành đã giảm chậm trong những năm gần đây.
Tuy nhiên, CEO của Nvidia, Jensen Huang, tin rằng trong 10 năm tới, trí tuệ nhân tạo sẽ hiệu quả hơn “một triệu lần” nhờ những cải tiến không chỉ trong việc sản xuất chip, mà còn trong phần mềm và các bộ phận máy tính khác.
“Hoá đơn của Moore, trong những ngày tốt đẹp nhất, sẽ cung cấp 100 lần trong một thập kỷ,” Huang nói tháng trước trong cuộc họp thu nhập. “Bằng cách tạo ra các bộ vi xử lý mới, hệ thống mới, liên kết mới, khung công việc và thuật toán mới, và làm việc với các nhà khoa học dữ liệu, các nhà nghiên cứu trí tuệ nhân tạo về các mô hình mới, trong suốt quãng thời gian đó, chúng ta đã làm cho xử lý mô hình ngôn ngữ lớn nhanh hơn một triệu lần.”
Một số công ty khởi nghiệp tập trung vào chi phí cao của trí tuệ nhân tạo như một cơ hội kinh doanh.
“Không ai nói ‘Bạn nên xây dựng một cái gì đó được thiết kế đặc biệt cho suy luận.’ Điều đó sẽ như thế nào?” – Sid Sheth, người sáng lập D-Matrix, một công ty khởi nghiệp xây dựng một hệ thống để tiết kiệm tiền cho suy luận bằng cách thực hiện nhiều xử lý hơn trong bộ nhớ của máy tính, chứ không phải trên GPU.
“Mọi người đang sử dụng GPU ngày nay, GPU của NVIDIA, để thực hiện hầu hết suy luận của họ. Họ mua các hệ thống DGX mà NVIDIA bán với giá rất đắt tiền. Vấn đề với suy luận là nếu khối lượng công việc tăng đột ngột rất nhanh, điều mà đã xảy ra với ChatGPT, nó tăng lên đến hàng triệu người dùng trong năm ngày. Không có cách nào dung lượng GPU của bạn có thể theo kịp vì nó không được xây dựng cho điều đó. Nó được xây dựng cho việc huấn luyện, cho tăng tốc đồ họa,” ông nói.
Delangue, CEO của HuggingFace, tin rằng nhiều công ty sẽ được phục vụ tốt hơn nếu tập trung vào các mô hình nhỏ hơn, cụ thể, rẻ tiền để huấn luyện và chạy, thay vì các mô hình ngôn ngữ lớn thu hút nhiều sự chú ý nhất.
Trong khi đó, OpenAI đã thông báo tháng trước rằng họ đang giảm giá để các công ty tiếp cận các mô hình GPT của họ. Hiện nay, họ tính giá một phần năm một xu cho khoảng 750 từ đầu ra.
Các giá thấp hơn của OpenAI đã thu hút sự chú ý của công ty AI Dungeon-maker Latitude.
“Tôi nghĩ rằng có thể nói rằng đó là một thay đổi lớn chúng tôi rất vui mừng khi thấy xảy ra trong ngành và chúng tôi liên tục đánh giá cách chúng tôi có thể cung cấp trải nghiệm tốt nhất cho người dùng,” một người phát ngôn của Latitude nói. “Latitude sẽ tiếp tục đánh giá tất cả các mô hình trí tuệ nhân tạo để đảm bảo chúng tôi có trò chơi tốt nhất trên thị trường.”
CNBC