OpenAI đã công bố phát hành mô hình ngôn ngữ lớn mới nhất của mình, GPT-4. Mô hình này là một mô hình đa phương thức lớn có thể chấp nhận cả đầu vào hình ảnh và văn bản và tạo đầu ra văn bản.
Generative Pre-training Transformers là gì?
Generative Pre-training Transformers (GPT) là một loại mô hình học sâu được sử dụng để tạo văn bản giống con người. Sử dụng phổ biến bao gồm
- trả lời câu hỏi
- tóm tắt văn bản
- dịch văn bản sang các ngôn ngữ khác
- tạo mã
- tạo các bài đăng trên blog, câu chuyện, cuộc trò chuyện và các loại nội dung khác.
Có vô số ứng dụng dành cho mô hình GPT và thậm chí bạn có thể tinh chỉnh chúng trên dữ liệu cụ thể để tạo ra kết quả tốt hơn nữa. Bằng cách sử dụng máy biến áp, bạn sẽ tiết kiệm được chi phí điện toán, thời gian và các tài nguyên khác.
Trước GPT
Cuộc cách mạng AI hiện tại đối với ngôn ngữ tự nhiên chỉ có thể thực hiện được khi phát minh ra các mô hình biến áp, bắt đầu với BERT của Google vào năm 2017. Trước đó, việc tạo văn bản được thực hiện với các mô hình học sâu khác, chẳng hạn như mạng thần kinh đệ quy (RNN) và các mô hình học ngắn hạn dài hạn. mạng thần kinh bộ nhớ (LSTM). Chúng hoạt động tốt để xuất ra các từ đơn lẻ hoặc cụm từ ngắn nhưng không thể tạo ra nội dung dài hơn thực tế.
Cách tiếp cận máy biến áp của BERT là một bước đột phá lớn vì nó không phải là một kỹ thuật học có giám sát. Nghĩa là, nó không yêu cầu một bộ dữ liệu có chú thích đắt tiền để đào tạo nó. BERT đã được Google sử dụng để diễn giải các tìm kiếm ngôn ngữ tự nhiên, tuy nhiên, nó không thể tạo văn bản từ lời nhắc.
GPT-1
Kiến trúc máy biến áp | Giấy GPT-1
Vào năm 2018, OpenAI đã xuất bản một bài báo ( Cải thiện khả năng hiểu ngôn ngữ bằng cách đào tạo trước sáng tạo ) về việc sử dụng khả năng hiểu ngôn ngữ tự nhiên bằng mô hình ngôn ngữ GPT-1 của họ. Mô hình này là một bằng chứng về khái niệm và không được phát hành công khai.
GPT-2
Hiệu suất mô hình trên các nhiệm vụ khác nhau | Giấy GPT-2
Năm sau, OpenAI đã xuất bản một bài báo khác ( Các mô hình ngôn ngữ là những người học đa nhiệm không giám sát ) về mô hình mới nhất của họ, GPT-2. Lần này, mô hình này đã được cung cấp cho cộng đồng máy học và được áp dụng cho các tác vụ tạo văn bản. GPT-2 thường có thể tạo ra một vài câu trước khi bị hỏng. Đây là công nghệ tiên tiến nhất vào năm 2019.
GPT-3
Kết quả trên ba nhiệm vụ Đảm bảo chất lượng miền mở | Giấy GPT-3
Vào năm 2020, OpenAI đã xuất bản một bài báo khác ( Language Models are Few-Shot Learners ) về mô hình GPT-3 của họ. Mô hình này có nhiều thông số hơn 100 lần so với GPT-2 và được đào tạo trên tập dữ liệu văn bản thậm chí còn lớn hơn, dẫn đến hiệu suất mô hình tốt hơn. Mô hình này tiếp tục được cải thiện với nhiều lần lặp lại khác nhau được gọi là chuỗi GPT-3.5, bao gồm cả ChatGPT tập trung vào hội thoại.
Phiên bản này đã gây bão trên toàn thế giới sau khi khiến cả thế giới ngạc nhiên với khả năng tạo ra các trang văn bản giống con người. ChatGPT đã trở thành ứng dụng web phát triển nhanh nhất từ trước đến nay , đạt 100 triệu người dùng chỉ sau hai tháng.
Bạn có thể tìm hiểu thêm về GPT-3 , công dụng và cách sử dụng nó trong một bài viết riêng.
Có gì mới trong GPT-4?
GPT-4 đã được phát triển để cải thiện “sự liên kết” của mô hình – khả năng tuân theo ý định của người dùng đồng thời làm cho nó trung thực hơn và tạo ra đầu ra ít gây khó chịu hoặc nguy hiểm hơn.
Cải tiến hiệu suất
Như bạn có thể mong đợi, GPT-4 cải thiện các mẫu GPT-3.5 về tính chính xác thực tế của các câu trả lời. Số lượng “ảo giác”, trong đó mô hình mắc lỗi thực tế hoặc lý luận, thấp hơn, với GPT-4 đạt điểm cao hơn 40% so với GPT-3.5 trên điểm chuẩn hiệu suất thực tế nội bộ của OpenAI.
Nó cũng cải thiện “khả năng điều khiển”, đó là khả năng thay đổi hành vi của nó theo yêu cầu của người dùng. Ví dụ: bạn có thể yêu cầu nó viết theo phong cách hoặc giọng điệu hoặc giọng nói khác. Hãy thử bắt đầu lời nhắc bằng “Bạn là một chuyên gia về dữ liệu dài dòng” hoặc “Bạn là một chuyên gia về dữ liệu ngắn gọn” và yêu cầu nó giải thích một khái niệm khoa học dữ liệu cho bạn. Bạn có thể đọc thêm về cách thiết kế lời nhắc tuyệt vời cho các mô hình GPT tại đây .
Một cải tiến nữa là mô hình tuân thủ lan can. Nếu bạn yêu cầu nó làm điều gì đó bất hợp pháp hoặc không hợp lý, tốt hơn hết bạn nên từ chối yêu cầu đó.
Sử dụng Đầu vào trực quan trong GPT-4
Một thay đổi lớn là GPT-4 có thể sử dụng đầu vào hình ảnh (chỉ xem trước nghiên cứu; chưa có sẵn cho công chúng) và văn bản. Người dùng có thể chỉ định bất kỳ nhiệm vụ hình ảnh hoặc ngôn ngữ nào bằng cách nhập văn bản và hình ảnh xen kẽ.
Các ví dụ cho thấy GPT-4 nổi bật diễn giải chính xác hình ảnh phức tạp như biểu đồ, meme và ảnh chụp màn hình từ các bài báo học thuật.
Bạn có thể xem các ví dụ về đầu vào tầm nhìn bên dưới.
Điểm chuẩn hiệu suất GPT-4
OpenAI đã đánh giá GPT-4 bằng cách mô phỏng các kỳ thi được thiết kế cho con người, chẳng hạn như Kỳ thi Luật sư Thống nhất và LSAT dành cho luật sư và kỳ thi SAT để tuyển sinh đại học. Kết quả cho thấy GPT-4 đạt được hiệu suất ở cấp độ con người trên nhiều tiêu chuẩn chuyên môn và học thuật khác nhau.
OpenAI cũng đã đánh giá GPT-4 trên các điểm chuẩn truyền thống được thiết kế cho các mô hình học máy, trong đó nó vượt trội so với các mô hình ngôn ngữ lớn hiện có và hầu hết các mô hình hiện đại có thể bao gồm các giao thức đào tạo bổ sung hoặc chế tạo dành riêng cho điểm chuẩn. Các điểm chuẩn này bao gồm các câu hỏi trắc nghiệm trong 57 môn học, lý luận hợp lý xung quanh các sự kiện hàng ngày, câu hỏi khoa học trắc nghiệm cấp trường, v.v.
OpenAI đã kiểm tra khả năng của GPT-4 ở các ngôn ngữ khác bằng cách dịch điểm chuẩn MMLU, một bộ gồm 14.000 bài toán trắc nghiệm trải rộng trên 57 môn học, sang nhiều ngôn ngữ khác nhau bằng Azure Translate. Ở 24 trong số 26 ngôn ngữ được thử nghiệm, GPT-4 vượt trội so với hiệu suất tiếng Anh của GPT-3.5 và các mô hình ngôn ngữ lớn khác.
Nhìn chung, kết quả có cơ sở hơn của GPT-4 cho thấy tiến bộ đáng kể trong nỗ lực của OpenAI nhằm phát triển các mô hình AI với khả năng ngày càng tiên tiến.
Cách giành quyền truy cập vào GPT-4
OpenAI đang phát hành khả năng nhập văn bản của GPT-4 thông qua ChatGPT. Nó hiện có sẵn cho người dùng ChatGPT Plus. Có một danh sách chờ cho API GPT-4.
Tính khả dụng công khai của khả năng nhập hình ảnh vẫn chưa được công bố.
OpenAI có OpenAI Evals mã nguồn mở, một khung đánh giá tự động hiệu suất mô hình AI, cho phép mọi người báo cáo những thiếu sót trong mô hình của họ và hướng dẫn các cải tiến tiếp theo.