Tháng Ba 18, 2024

Mục lục

Tác giả: Aayush Mittal
ngày 14 tháng 3 năm 2024

Inflection AI đã tạo ra sự chấn động trong lĩnh vực các mô hình ngôn ngữ lớn (LLMs) với việc giới thiệu gần đây của Inflection-2.5, một mô hình cạnh tranh với các LLM hàng đầu thế giới, bao gồm cả GPT-4 của OpenAI và Gemini của Google.

Sự tăng trưởng nhanh chóng của Inflection AI đã được thúc đẩy thêm bởi một vòng gọi vốn lớn hơn cả, với số tiền lên đến 1,3 tỷ đô la, do các công ty khổng lồ trong ngành như Microsoft, NVIDIA dẫn đầu, và các nhà đầu tư nổi tiếng như Reid Hoffman, Bill Gates và Eric Schmidt. Đầu tư quan trọng này đưa tổng số vốn được huy động bởi công ty lên 1,525 tỷ đô la.

Phối hợp với các đối tác CoreWeave và NVIDIA, Inflection AI đang xây dựng cụm máy tính trí tuệ nhân tạo lớn nhất thế giới, bao gồm một số lượng chưa từng có là 22,000 GPU Tensor Core NVIDIA H100. Sức mạnh tính toán khổng lồ này sẽ hỗ trợ việc huấn luyện và triển khai một thế hệ mới của các mô hình trí tuệ nhân tạo quy mô lớn, cho phép Inflection AI đẩy lùi ranh giới về những gì có thể thực hiện được trong lĩnh vực trí tuệ nhân tạo cá nhân.

Công việc đột phá của công ty đã mang lại những kết quả đáng kinh ngạc, khi cụm máy tính của Inflection AI, hiện bao gồm hơn 3,500 GPU Tensor Core NVIDIA H100, đạt hiệu suất tối ưu trên bài kiểm tra mã nguồn mở MLPerf. Trong một đề xuất chung với CoreWeave và NVIDIA, cụm máy tính đã hoàn thành nhiệm vụ huấn luyện tham chiếu cho các mô hình ngôn ngữ lớn chỉ trong 11 phút, củng cố vị trí của nó là cụm máy tính nhanh nhất trên bài kiểm tra này.

Thành tựu này tiếp theo việc giới thiệu Inflection-1, mô hình ngôn ngữ lớn (LLM) được phát triển bởi Inflection AI, đã được ca ngợi là mô hình tốt nhất trong lớp tính toán của mình. Vượt qua các ông lớn trong ngành như GPT-3.5, LLaMA, Chinchilla và PaLM-540B trên một loạt các bài kiểm tra thông thường được sử dụng để so sánh LLMs, Inflection-1 cho phép người dùng tương tác với Pi, trí tuệ nhân tạo cá nhân của Inflection AI, một cách đơn giản và tự nhiên, nhận thông tin và lời khuyên nhanh chóng, hữu ích và chính xác.

Cam kết của Inflection AI đối với sự minh bạch và khả năng tái tạo rõ ràng qua việc công bố một bản ghi chú kỹ thuật chi tiết về việc đánh giá và hiệu suất của Inflection-1 trên các bài kiểm tra khác nhau. Bản ghi chú tiết lộ rằng Inflection-1 vượt qua các mô hình cùng lớp tính toán, được định nghĩa là các mô hình được huấn luyện sử dụng tối đa FLOPs (các phép tính dấu chấm động) của PaLM-540B.

Sự thành công của Inflection-1 và việc mở rộng nhanh chóng của cơ sở hạ tầng máy tính của công ty, được thúc đẩy bởi vòng gọi vốn lớn, làm nổi bật cam kết kiên định của Inflection AI trong việc thực hiện sứ mệnh của mình là tạo ra một trí tuệ nhân tạo cá nhân cho mọi người. Với việc tích hợp Inflection-1 vào Pi, người dùng hiện có thể trải nghiệm sức mạnh của một trí tuệ nhân tạo cá nhân, hưởng lợi từ tính cách đồng cảm, tính hữu ích và tiêu chuẩn an toàn của nó.

Inflection-2.5

Inflection-2.5 hiện đã sẵn có cho tất cả người dùng của Pi, trợ lý trí tuệ nhân tạo cá nhân của Inflection AI, trên nhiều nền tảng khác nhau, bao gồm web (pi.ai), iOS, Android, và một ứng dụng desktop mới. Sự tích hợp này đánh dấu một cột mốc quan trọng trong sứ mệnh của Inflection AI là tạo ra một trí tuệ nhân tạo cá nhân cho mọi người, kết hợp khả năng vật lý với tính cách đồng cảm và tiêu chuẩn an toàn đặc trưng của họ.

Một Bước Nhảy về Hiệu Suất Mô hình trước đó của Inflection AI, Inflection-1, sử dụng khoảng 4% FLOPs (các phép tính dấu chấm động) trong quá trình huấn luyện so với GPT-4 và cho thấy hiệu suất trung bình khoảng 72% so với GPT-4 trên các nhiệm vụ hướng IQ khác nhau. Với Inflection-2.5, Inflection AI đã đạt được một đòn bẩy đáng kể trong khả năng trí tuệ của Pi, tập trung vào lập trình và toán học.

Hiệu suất của mô hình trên các tiêu chuẩn ngành công nghiệp chính thể hiện sức mạnh của nó, cho thấy hơn 94% hiệu suất trung bình của GPT-4 trên các nhiệm vụ khác nhau, với một sự tập trung đặc biệt vào việc xuất sắc trong các lĩnh vực STEM. Thành tựu đáng kinh ngạc này là một minh chứng cho cam kết của Inflection AI trong việc đẩy ranh giới công nghệ trong khi vẫn giữ một tập trung vững chắc vào trải nghiệm người dùng và an toàn.

Kỹ Năng Lập Trình và Toán Học Inflection-2.5 tỏa sáng trong lập trình và toán học, cho thấy sự cải thiện hơn 10% so với Inflection-1 trên BIG-Bench-Hard, một tập hợp các vấn đề thách thức cho các mô hình ngôn ngữ lớn. Hai tiêu chuẩn lập trình, MBPP+ và HumanEval+, tiết lộ sự cải thiện đáng kể so với Inflection-1, củng cố vị trí của Inflection-2.5 là một thế lực đáng kể trong lĩnh vực lập trình.

Trên tiêu chuẩn MBPP+, Inflection-2.5 vượt trội so với tiền nhiệm của nó một cách đáng kể, cho thấy một mức hiệu suất tương đương với GPT-4, như báo cáo từ DeepSeek Coder. Tương tự, trên tiêu chuẩn HumanEval+, Inflection-2.5 thể hiện sự tiến bộ đáng kể, vượt qua hiệu suất của Inflection-1 và tiến gần đến mức của GPT-4, như báo cáo trên bảng xếp hạng EvalPlus.

Vượt trội trong các bảng xếp hạng theo chuẩn công nghiệp

Inflection-2.5 nổi bật trong các bài kiểm tra ngành công nghiệp, thể hiện sự cải thiện đáng kể so với Inflection-1 trên bài kiểm tra MMLU và bài kiểm tra GPQA Diamond, nổi tiếng với độ khó cấp chuyên gia. Hiệu suất của mô hình trên những bài kiểm tra này nhấn mạnh khả năng của nó trong việc xử lý một loạt các nhiệm vụ, từ các vấn đề cấp trung học đến các thách thức cấp chuyên gia.

Xuất Sắc Trong Kỳ Thi STEM Sức mạnh của mô hình mở rộng đến các kỳ thi STEM, với hiệu suất nổi bật trên kỳ thi Toán Hungary và Physics GRE. Trên kỳ thi Toán Hungary, Inflection-2.5 thể hiện sự thông minh toán học bằng cách tận dụng các đề mẫu và định dạng được cung cấp, cho phép dễ dàng tái tạo.

Trong Physics GRE, một kỳ thi đầu vào sau đại học về vật lý, Inflection-2.5 đạt được phần trăm 85 của người làm bài kiểm tra trong phần maj@8 (phần trăm biểu quyết ở 8 điểm), củng cố vị thế của nó như một đối thủ đáng gờm trong lĩnh vực giải quyết vấn đề vật lý. Hơn nữa, mô hình tiệm cận điểm số cao nhất trong maj@32, thể hiện khả năng giải quyết các vấn đề vật lý phức tạp với độ chính xác đáng kinh ngạc.

Nâng Cao Trải Nghiệm Người Dùng Inflection-2.5 không chỉ duy trì tính cách đặc trưng và tiêu chuẩn an toàn của Pi, mà còn nâng cao vị thế của nó như một trí tuệ nhân tạo cá nhân đa dạng và không thể thiếu trên các chủ đề khác nhau. Từ thảo luận về sự kiện hiện tại đến tìm kiếm gợi ý địa phương, ôn tập cho kỳ thi, lập trình và thậm chí là các cuộc trò chuyện bình thường, Pi được cung cấp bởi Inflection-2.5 hứa hẹn mang lại trải nghiệm người dùng đa dạng và phong phú.

Với khả năng mạnh mẽ của Inflection-2.5, người dùng đang tương tác với Pi trên một loạt các chủ đề rộng lớn hơn bao giờ hết. Khả năng của mô hình trong xử lý các nhiệm vụ phức tạp, kết hợp với tính cách đồng cảm và khả năng tìm kiếm trực tuyến thời gian thực, đảm bảo người dùng nhận được thông tin và hướng dẫn chất lượng cao và cập nhật.

Sự Nhận Biết và Tương Tác của Người Dùng Tác động của việc tích hợp Inflection-2.5 vào Pi đã rõ ràng trong các chỉ số về cảm xúc, tương tác và giữ chân người dùng. Inflection AI đã chứng kiến sự gia tăng đáng kể trong sự tăng trưởng tự nhiên của người dùng, với một triệu người dùng hàng ngày và sáu triệu người dùng hàng tháng trao đổi hơn bốn tỷ tin nhắn với Pi.

Trung bình, cuộc trò chuyện với Pi kéo dài 33 phút, với một trong mười cuộc kéo dài hơn một giờ mỗi ngày. Hơn nữa, khoảng 60% người tương tác với Pi trong một tuần nhất định quay lại tuần tiếp theo, thể hiện độ hấp dẫn hàng tháng cao hơn so với các đối thủ hàng đầu trong lĩnh vực này.

Chi Tiết Kỹ Thuật và Sự Trong Trẻo trong Bài Kiểm Tra

Phù hợp với cam kết của Inflection AI về sự minh bạch và khả năng tái tạo, công ty đã cung cấp kết quả kỹ thuật toàn diện và chi tiết về hiệu suất của Inflection-2.5 trên các bài kiểm tra ngành công nghiệp khác nhau.

Ví dụ, trên phiên bản đã sửa của tập dữ liệu MT-Bench, giải quyết các vấn đề với các giải pháp tham chiếu không chính xác và các giả định không chính xác trong tập dữ liệu gốc, Inflection-2.5 thể hiện hiệu suất phù hợp với các kỳ vọng dựa trên các bài kiểm tra khác.

Inflection AI cũng đã đánh giá Inflection-2.5 trên HellaSwag và ARC-C, các bài kiểm tra về trí tuệ thông thường và khoa học được báo cáo bởi một loạt các mô hình, và kết quả thể hiện hiệu suất mạnh mẽ trên các bài kiểm tra này.

Điều quan trọng cần lưu ý là trong khi các đánh giá cung cấp đại diện cho mô hình làm nền tảng cho Pi, trải nghiệm người dùng có thể thay đổi một chút do các yếu tố như tác động của việc truy xuất web (không được sử dụng trong các bài kiểm tra), cấu trúc của đề xuất ít hình thức, và các khác biệt về sản xuất khác.

Kết Luận

Inflection-2.5 đại diện cho một bước tiến quan trọng trong lĩnh vực các mô hình ngôn ngữ lớn, cạnh tranh với khả năng của các nhà lãnh đạo ngành như GPT-4 và Gemini trong khi chỉ sử dụng một phần nhỏ của tài nguyên tính toán. Với hiệu suất ấn tượng trên một loạt các bài kiểm tra, đặc biệt là trong các lĩnh vực STEM, lập trình và toán học, Inflection-2.5 đã định vị chính mình như một đối thủ đáng gờm trong cảnh quan trí tuệ nhân tạo.

Việc tích hợp Inflection-2.5 vào Pi, trợ lý trí tuệ nhân tạo cá nhân của Inflection AI, hứa hẹn mang lại trải nghiệm người dùng phong phú, kết hợp khả năng cơ bản với tính cách đồng cảm và tiêu chuẩn an toàn. Khi Inflection AI tiếp tục đẩy ranh giới về những gì có thể thực hiện được với các mô hình ngôn ngữ lớn, cộng đồng trí tuệ nhân tạo đang mong đợi những đợt đổi mới và đột phá tiếp theo từ công ty tiên phong này.

Phương pháp tư duy độc đáo của Inflection AI không chỉ dừng lại ở việc phát triển mô hình mà còn nhận ra tầm quan trọng của việc tiền huấn luyện và điều chỉnh tinh chỉnh trong việc tạo ra các trải nghiệm trí tuệ nhân tạo chất lượng cao, an toàn và hữu ích. Là một studio trí tuệ nhân tạo tích hợp theo chiều dọc, Inflection AI xử lý toàn bộ quy trình trong nhà, từ việc nhập dữ liệu và thiết kế mô hình đến cơ sở hạ tầng hiệu suất cao.

Biến thể Inflection-2.5: Sức mạnh cạnh tranh với GPT-4 và Gemini - MyGPT

Inflection-2.5

Vượt trội trong các bảng xếp hạng theo chuẩn công nghiệp

Chi Tiết Kỹ Thuật và Sự Trong Trẻo trong Bài Kiểm Tra

Kết Luận