Để giúp anh/chị quyết định có đọc tiếp hay không, tôi xin phép cung cấp các thông tin liên quan đến bài post này như sau:
- Chủ đề: Machine Learning
- Tính thời sự: tháng 12/2024
- Thời gian đọc: 10 phút đọc bài post (nếu xem toàn bộ 12 video thì mất khoảng 3 tiếng đồng hồ)
Ⓐ. Đề dẫn.
Trong văn hóa người Anh, vào dịp Giáng sinh có bài hát với tựa đề “The Twelve Days of Christmas” (tạm dịch: 12 ngày Giáng sinh). Trong bài hát, mỗi một ngày, “”ca sỹ” được “người yêu” tặng một món quà. Năm nay, trong chiến dịch quảng bá sản phẩm, công ty OpenAI đã “nhại” tiêu đề bài hát này thành “12 days of Shipmas”. Tiêu đề này có ý chơi chữ biến “Christmas” thành “Shipmas” – về mặt phát âm nghe từa tựa như nhau. Từ “Ship” có nghĩa là “Giao/Giao hàng”, “mas” là hậu tố của “Christmas”. Vì các loại “hàng” trong dịp Giáng sinh phần lớn là quà, nên tôi tạm dịch tiêu đề đó thành “12 ngày giao quà Giáng sinh”. Và quả thật đúng thế. Bắt đầu từ ngày 5/12/2024, mỗi một ngày trong tuần (từ thứ Hai đến thứ Sáu) OpenAI đã “giao” cho công chúng một món quà “AI”. Mời anh/chị cùng tôi điểm lại “12 days of Shipmas”.
–
Ⓑ.12 days of Shipmas.
Day 1: Thứ Năm ngày 5/12/2024
Video: o1 & ChatGPT Pro
Trong ngày đầu tiên, OpenAI giới thiệu phiên bản đầy đủ o1 – mô hình được cho là có khả năng lập luận (cho các thuê bao ChatGPT Plus & Team). Ngoài văn bản, mô hình o1 còn có “thị giác”, có khả năng phân tích và “hiểu” một cách chi tiết các bức ảnh. O1 có thời gian suy nghĩ nhanh hơn o1-preview (ra mắt hồi tháng 9/2024) và mắc ít lỗi hơn.
Ngoài ra, họ còn giới thiệu loại thuê bao mới có tên là ChatGPT Pro, giá thuê bao là 200$/tháng. Giá này cao gấp 10 lần thuê bao ChatGPT Plus là 20$/tháng. ChatGPT Pro có thể truy cập và sử dụng không giới hạn các mô hình o1, GPT-4o và có chế độ “Advanced Voice”: nghe hiểu.
Day 2: Thứ Sáu ngày 6/12/2024
Video: OpenAI’s Reinforcement Fine-Tuning Research Program
Ngày 2 có vẻ hơi nặng về kỹ thuật. Họ giới thiệu một phương pháp tinh chỉnh mới có tên là Reinforcement Fine-Tuning (RFT). Chúng ta đã quen với kỹ thuật tinh chỉnh có giám sát: Supervised Fine-Tuning (SFT). RFT được cho là vượt trội SFT. Đại ý của RFT: cho một bài toán, mô hình đi tìm tất cả các lời giải, sắp xếp chúng theo thứ tự: [tốt nhất, tốt nhì, …]. Dãy thứ tự lời giải này sau đó được so với đáp án trên thực tế và được chấm điểm (grader). Bằng phương pháp tinh chỉnh này người dùng có thể tăng cường năng lực lý luận của mô hình.
Video cho biết ông Justin Reese đến từ Berkeley Lab đã thử nghiệm RFT để nghiên cứu các bệnh di truyền hiếm gặp, trong khi Thomson Reuters đã tạo ra một mô hình o1-mini chuyên biệt cho trợ lý ảo về pháp lý CoCounsel AI.
Lúc đầu OpenAI dự định cho ra mắt RFT vào đầu năm 2024 nhưng cho đến thời điểm này họ chỉ cho tiếp cận một cách hạn chế.
Day 3: Thứ Hai ngày 9/12/2024
Video: Sora
Ngày 3, OpenAI giới thiệu mô hình Sora: text-to-video (dành cho thuê bao ChatGPT plus và ChatGPT Pro qua một website riêng là sora.com). Về đại thể: đầu vào của Sora là một đoạn văn bản và đầu ra là một đoạn video clip. Trên thực tế, người dùng phải điều chỉnh nhiều tham số, sau đó Sora mới cho ra được đoạn video clip.
Sora được giới thiệu lần đầu (preview) vào tháng 2/2024. OpenAI hạn chế các video được tạo ra có yếu tố con người vì sợ bị lạm dụng. Thuê bao ChatGPT Plus (20$/tháng) có thể tạo 50 video/tháng, với độ phân giải chủ yếu là 480p (852×480 pixels), số lượng video được phép tạo ra ít hơn nếu dùng độ phân giải 720p (1280×720 pixels). Thuê bao ChatGPT Pro (200$/tháng) có thể tạo video có độ phân giải cao hơn với thời lượng dài hơn (max 20 giây).
Day 4: Thứ Ba ngày 10/12/2024
Video: Canvas
Ngày 4, OpenAI chuyển phiên bản beta Canvas (giới thiệu hồi tháng 10/2024) sang phiên bản chính thức cho toàn bộ người dùng ChatGPT, kể cả người dùng miễn phí. Nghĩa gốc của từ Canvas là khung vẽ cho họa sỹ. Trong ngữ cảnh kỹ thuật số, chúng ta có thể hiểu Canvas là “vùng bản thảo”. Canvas giúp người dùng soạn thảo bài viết hoặc lập trình.
Khi soạn thảo bài viết, Canvas có các chức năng cơ bản như in đậm, in nghiêng hoặc chọn Style (Heading 1, Heading 2, …) tương tự như khi chúng ta soạn thảo bằng phần mềm Word của Microsoft nhưng ở mức độ đơn giản hơn. Về nội dung bài viết, sau khi chúng ta đưa vào Canvas, Canvas sẽ tự động chuyển đổi nội dung thành một đoạn văn mới, vẫn giữ các ý chính. Nội dung được Canvas sửa đổi thường được sắp xếp một cách có cấu trúc phân cấp, lời văn trôi chảy hơn, …
Lập trình: Canvas cộng tác giúp chúng ta rà duyệt (review code), thêm phần lưu ký vết (logs) bằng cách thêm lệnh “print”, tự động thêm thuyết minh (comments), hỗ trợ gỡ rối (fix bugs), chuyển ngữ giữa các ngôn ngữ lập trình gồm JavaScript, TypeScript, Python, Java, C++ hoặc PHP. Xem thêm: Introducing canvas.
Day 5: Thứ Tư ngày 11/12/2024
Video: ChatGPT in Apple Intelligence
Ngày 5, OpenAI thông báo là ChatGPT được tích hợp vào Apple Intelligence cho các máy iPhone, iPad và Mac đời mới gần đây. Không phải máy nào hoặc hệ điều hành (HĐH) nào của Apple cũng cài được ChatGPT:
- iPhone: iPhone 8 trở lên; HĐH iOS 16.1 trở lên.
- iPad: HĐH iPadOS 16.4 trở lên.
- Mac: HĐH Mac 14 trở lên; Chỉ áp dụng cho máy Apple Silicon (M1, M2, M3) – Nghĩa là máy Mac được sản xuất bằng chip Intel sẽ không cài được ().
Trong video, chúng ta thấy OpenAI demo bằng cách hỏi Siri. Khi Siri thấy vấn đề “phức tạp” thì Siri “nhờ” ChatGPT giải quyết. Khi ChatGPT được kích hoạt thì máy lúc đó có các tính năng của ChatGPT. Trong demo, chúng ta thấy máy iPhone sử dụng camera để quay một đoạn video ngắn, nhận dạng được video và có thể lập trình theo yêu cầu.
Day 6: Thứ Năm ngày 12/12/2024
Video: Advanced voice with video & Santa mode
Ngày 6, OpenAI đưa thêm 2 tính năng mới liên quan đến chế độ Advanced Voice (nghe hiểu): đó là chế độ “video calling” (gọi video) và giọng nói của Ông già Noel (Santa Claus).
Video calling: người dùng sử dụng điện thoại, bật chế độ video, sau đó vừa “quay phim” vừa hội thoại với ChatGPT. Trong bản demo, ChatGPT có thể ghi nhớ các khung cảnh khi quay phim, có thể nhận dạng ảnh khi hội thoại cùng người dùng. Chế độ “video calling” chỉ có ở thuê bao ChatGPT Plus và ChatGPT Pro.
Giọng nói của Ông già Noel: Trong khoảng thời gian nghỉ lễ Giáng sinh (năm 2024), OpenAI cho xuất hiện một biểu tượng cạnh Advanced Voice là bông tuyết – tượng trưng cho Ông già Noel. Người dùng có thể hội thoại với Ông già Noel khi kích chuột vào bông tuyết này.
Day 7: Thứ Sáu ngày 13/12/2024
Video: Projects in ChatGPT
Ngày 7, OpenAI giới thiệu chức năng Projects. Projects cho phép người dùng sắp xếp các cuộc hội thoại và các file thành từng “ngăn” (folder) cho gọn gàng, ngăn nắp.
Chức năng Projects chỉ dành cho các thuê bao ChatGPT Plus, ChatGPT Team và ChatGPT Pro.
Day 8: Thứ Hai ngày 16/12/2024
Video: Search
Ngày 8, OpenAI giới thiệu chức năng Search (tìm kiếm). Kể từ ngày 16/12/2024, chức năng Search hoàn toàn miễn phí cho người dùng. Chúng ta có thể tìm kiếm bằng cách gõ văn bản hoặc dùng giọng nói. Khi dùng giọng nói (voice mode), phiên bản trên web có hạn mức sử dụng nên các thuê bao miễn phí có thể không nhìn thấy chế độ giọng nói. Chú ý rằng app ChatGPT (cài trên PC/Laptop/Mobile) có voice mode mặc dù bản trên Web có thể không có.
Day 9: Thứ Ba ngày 17/12/2024
Video: OpenAI o1 and new tools for developers
Ngày 9, OpenAI chính thức ra mắt mô hình o1 cho các nhà phát triển ứng dụng (application developers) gồm:
- Chức năng API: function calling (gọi hàm ngoài), developer messages (chỉ định câu lệnh cho mô hình tuân theo), Structured Outputs (chỉ định dạng thức đầu ra), và vision capabilities (xử lý đầu vào là ảnh).
- Cập nhật Realtime API: Hội thoại thời gian thực (với độ trễ thấp: low-latency).
- Hỗ trợ chuẩn WebRTC: Hỗ trợ giao tiếp bằng chuẩn WebRTC (video, giọng nói).
- Preference Fine-Tuning: Tinh chỉnh mô hình bằng so sánh trải nghiệm người dùng.
- Giới thiệu SDK cho ngôn ngữ lập trình Go và Java (phiên bản Beta).
Day 10: Thứ Tư ngày 18/12/2024
Video: 1-800-CHATGPT (1-800-242-8478)
Ngày 10, OpenAI giới thiệu cách gọi dịch vụ 1800 miễn phí ở Hoa Kỳ (số 1-800-242-8478). Trong demo, chúng thấy người dùng có thể gọi đến ChatGPT bằng smartphone, bằng một điện thoại di động loại cũ hoặc thậm chí bằng một điện thoại quay số. Khách quốc tế ngoài Hoa Kỳ có thể dùng Whatsapp (ứng dụng của Meta) để hội thoại bằng tin nhắn.
Day 11: Thứ Năm ngày 19/12/2024
Video: Work with apps
Ngày 11, OpenAI demo ChatGPT trên Desktop phối hợp với các app khác. Họ demo trên máy Mac (Apple) cách ChatGPT “cộng tác” với các app khác. Trong phần demo đầu, chúng ta thấy họ mở 2 app song song là Warp và ChatGPT trên Mac. Trong ChatGPT chúng ta nhìn thấy có 4 tùy chọn là Warp, Notion, Notes, Xcode. Khi người dùng chọn Warp thì lúc đó ChatGPT “nhìn thấy” tất cả các diễn biến của app này. Vì vậy, người dùng có thể đặt câu hỏi hoặc yêu cầu ChatGPT thực hiện các phép toán liên quan đến Warp. Như vậy, theo một nghĩa nào đó, ChatGPT đang tiến gần đến việc “điều khiển” các app trên máy để bàn! Tất nhiên, người dùng phải cấu hình để cho phép ChatGPT thực hiện việc đó.
Day 12: Thứ Sáu ngày 20/12/2024
Video: o3 preview & call for safety researchers
Ngày 12, OpenAI thông báo cho cộng đồng biết là mô hình tiếp theo o1 sẽ là o3. (Chú ý là họ nhảy một số, không có o2 vì o2 trùng tên với O2 – là công ty cung dịch vụ viễn thông của Anh.) Họ chưa cho ra mắt mô hình o3 vì họ còn phải kiểm thử độ an toàn của mô hình (safety test) – họ kêu gọi cộng đồng tham gia kiểm thử. Trong thông báo, họ cho biết đã test o3 với một số benchmark.
- Về lập trình: o3 đạt 71.7% của benchmark SWE-bench Verified,
- Về thi lập trình trên Codeforces o3 đạt Elo 2700 (nằm trong top 200 lập trình viên giỏi nhất thế giới),
- Về giải toán AIME đạt 96.7%,
- Về kiểm thử kiến thức sinh học, vật lý và hóa học GPQA Diamond o3 đạt 87.7%. Để so sánh: nghiên cứu sinh tiến sỹ đạt khoảng 70%.
Ngoài ra, o3 được test với 2 benchmark đặc biệt:
- EpochAI: Đây là Benchmark về Toán cực khó, các nhà toán học phải mất nhiều giờ, thậm chí là nhiều ngày mới giải được. o3 đạt 25% trong lúc tất cả các mô hình khác chưa có mô hình nào vượt 2%.
- ARC-AGI: Benchmark về lập luận dùng để đo độ AGI (Artificial General Intelligence – trí tuệ nhân tạo tổng quát). Khi kiểm thử, o3 đạt 87.5% trong lúc con người chỉ đạt khoảng 85%.
Cũng trong ngày 12, OpenAI đăng bài nghiên cứu với tựa đề “deliberative alignment” – tạm dịch là “điều chỉnh có cân nhắc”.
Ⓒ. Suy ngẫm chậm.
①
OpenAI đang đầu tư rất mạnh vào đa phương thức: ra mắt mô hình o1, phát triển Sora (tạo sinh “văn bản” → “video”), tương tác giọng nói với cuộc gọi video, … Các demo cho thấy họ hướng tới các mô hình có thể xử lý một cách liền mạch, giao thoa mềm mại giữa các phương thức văn bản, hình ảnh, giọng nói và video.
②
ChatGPT ra mắt ngày 30/11/2022, GPT-4 ra mắt tháng 3/2023, GPT-4o ra mắt tháng 5/2024, o1-preview tháng 9/2024, o1 tháng 12/2024. Thêm nữa: trong video của Day 12, OpenAI cho biết là o3-mini sẽ rat mắt cuối tháng 1/2025 và tiếp đó là o3. Họ liên tục cho ra mắt các mô hình mới với khả năng vượt trội, đa phương thức. Anh/chị có cảm nhận là AGI đang đến rất gần không?
③
Cái gây ấn tượng và có phần ngạc nhiên là khả năng lập luận (reasoning) của LLM. Theo tôi thì LLM bây giờ không còn đơn thuần chỉ là Autoregressive nữa. Tôi đoán mò chắc là họ kết hợp giữa Autoregressive với Reinforcement Learning (RL) & Agents. Các Agents “tỏa” đi tìm “lời giải” (bằng cách sử dụng thuật toán RL). Sau đó tại “đại bản doanh LLM”, “tổng chỉ huy” sẽ tập hợp các “lời giải”, sắp xếp các lời giải theo thứ tự “điểm số”, tìm điểm “tối ưu” và trả kết quả.
Đương nhiên, đã là đoán mò thì chẳng có giá trị “hàn lâm” gì, chỉ là làm cho cốc cà phê của anh/chị thêm phần “tasty”!
–
Trân trọng & vui nhã
(_/)
( •_•)
/ >
Lê Văn Lợi