Tác giả: Aayush Mittal
ngày 29 tháng 2 năm 2024
Lĩnh vực Trí tuệ Nhân tạo (AI) đã chứng kiến sự tiến bộ đáng kể trong những năm gần đây, chủ yếu là do sự tiến bộ trong học sâu và xử lý ngôn ngữ tự nhiên (NLP). Ở hàng đầu của những tiến bộ này là các mô hình ngôn ngữ lớn (LLMs) – hệ thống AI được huấn luyện trên lượng lớn dữ liệu văn bản có thể tạo ra văn bản giống con người và tham gia vào các nhiệm vụ trò chuyện.
Các LLMs như PaLM của Google, Claude của Anthropic và Gopher của DeepMind đã thể hiện khả năng đáng kinh ngạc, từ lập trình đến suy luận dựa trên lý trí thông thường. Tuy nhiên, hầu hết những mô hình này chưa được phát hành công khai, giới hạn quyền truy cập cho nghiên cứu, phát triển và các ứng dụng có ích.
Điều này đã thay đổi với việc mã nguồn mở gần đây của Gemma – một họ LLMs từ DeepMind của Google dựa trên các mô hình Gemini mạnh mẽ thuộc sở hữu của họ. Trong bài đăng blog này, chúng tôi sẽ đào sâu vào Gemma, phân tích kiến trúc, quá trình huấn luyện, hiệu suất và việc phát hành có trách nhiệm của nó.
Tổng quan về Gemma
Vào tháng 2 năm 2023, DeepMind đã phát hành mã nguồn mở hai kích thước của các mô hình Gemma – một phiên bản có 2 tỷ tham số được tối ưu hóa cho triển khai trên thiết bị và một phiên bản lớn hơn có 7 tỷ tham số được thiết kế cho việc sử dụng GPU/TPU.
Gemma tận dụng một kiến trúc dựa trên transformer tương tự và phương pháp huấn luyện như các mô hình Gemini hàng đầu của DeepMind. Nó đã được huấn luyện trên đến 6 ngàn tỉ token văn bản từ tài liệu web, toán học và mã nguồn.
DeepMind đã phát hành cả các điểm kiểm tra được huấn luyện trước của Gemma cũng như các phiên bản được điều chỉnh tinh chỉnh bằng học có giám sát và phản hồi từ con người để cải thiện khả năng trong các lĩnh vực như đối thoại, làm theo chỉ dẫn và lập trình.
Bắt đầu với Gemma
Việc phát hành mã nguồn mở của Gemma làm cho khả năng AI tiên tiến của nó trở nên dễ tiếp cận đối với các nhà phát triển, nhà nghiên cứu và người đam mê. Đây là một hướng dẫn nhanh để bắt đầu:
Triển khai không phụ thuộc vào nền tảng
Một điểm mạnh chính của Gemma là tính linh hoạt của nó – bạn có thể chạy nó trên CPUs, GPUs hoặc TPUs. Đối với CPU, sử dụng TensorFlow Lite hoặc HuggingFace Transformers. Đối với hiệu suất tăng cường trên GPU/TPU, sử dụng TensorFlow. Các dịch vụ đám mây như Vertex AI của Google Cloud cũng cung cấp khả năng mở rộng mượt mà.
Truy cập vào các mô hình được huấn luyện trước
Gemma có các biến thể được huấn luyện trước khác nhau tùy thuộc vào nhu cầu của bạn. Các mô hình 2B và 7B cung cấp khả năng tạo ra mạnh mẽ ngay từ đầu. Đối với việc điều chỉnh tùy chỉnh, các mô hình 2B-FT và 7B-FT là điểm khởi đầu lý tưởng.
Xây dựng ứng dụng hấp dẫn
Bạn có thể xây dựng một loạt các ứng dụng đa dạng với Gemma, như tạo câu chuyện, dịch ngôn ngữ, trả lời câu hỏi và sản xuất nội dung sáng tạo. Chìa khóa là tận dụng những điểm mạnh của Gemma thông qua việc điều chỉnh tinh chỉnh trên các tập dữ liệu của riêng bạn.
Kiến trúc
Gemma sử dụng một kiến trúc transformer chỉ có bộ giải mã, dựa trên các tiến bộ như sự chú ý đa truy vấn và nhúng vị trí xoay:
- Transformers: Được giới thiệu vào năm 2017, kiến trúc transformer dựa hoàn toàn trên các cơ chế chú ý đã trở nên phổ biến trong NLP. Gemma thừa hưởng khả năng của transformer để mô hình hóa các phụ thuộc xa trong văn bản.
- Chỉ giải mã: Gemma chỉ sử dụng một ngăn xếp bộ giải mã transformer, không giống như các mô hình mã hóa-giải mã như BART hoặc T5. Điều này cung cấp khả năng tạo ra mạnh mẽ cho các nhiệm vụ như tạo văn bản.
- Chú ý đa truy vấn: Gemma sử dụng chú ý đa truy vấn trong mô hình lớn của mình, cho phép mỗi đầu chú ý xử lý nhiều truy vấn song song để tăng tốc quá trình suy luận.
- Nhúng vị trí xoay: Gemma đại diện cho thông tin vị trí bằng cách sử dụng các nhúng vị trí xoay thay vì các mã hóa vị trí tuyệt đối. Kỹ thuật này giảm kích thước mô hình trong khi vẫn giữ thông tin vị trí.
Việc sử dụng các kỹ thuật như chú ý đa truy vấn và nhúng vị trí xoay cho phép các mô hình Gemma đạt được sự cân bằng tối ưu giữa hiệu suất, tốc độ suy luận và kích thước mô hình.
Dữ liệu và Quá trình Huấn luyện
Gemma đã được huấn luyện trên đến 6 ngàn tỉ token dữ liệu văn bản, chủ yếu là bằng tiếng Anh. Điều này bao gồm tài liệu web, văn bản toán học và mã nguồn. DeepMind đã đầu tư nỗ lực đáng kể vào việc lọc dữ liệu, loại bỏ nội dung độc hại hoặc gây hại bằng cách sử dụng bộ phân loại và phương pháp thủ thuật.
Quá trình huấn luyện được thực hiện bằng cơ sở hạ tầng TPUv5 của Google, với đến 4096 TPUs được sử dụng để huấn luyện Gemma-7B. Các kỹ thuật song song mô hình và dữ liệu hiệu quả đã cho phép huấn luyện các mô hình lớn với phần cứng thông thường.
Quá trình huấn luyện theo giai đoạn đã được sử dụng, liên tục điều chỉnh phân phối dữ liệu để tập trung vào văn bản chất lượng cao, có liên quan. Các giai đoạn tinh chỉnh cuối cùng đã sử dụng một sự kết hợp giữa các ví dụ theo dõi hướng dẫn được tạo ra bởi con người và tổng hợp để tăng cường khả năng.
Hiệu suất của Mô hình
DeepMind đã đánh giá mô hình Gemma một cách nghiêm ngặt trên một tập hợp rộng lớn hơn 25 bài kiểm tra bao gồm trả lời câu hỏi, suy luận, toán học, lập trình, lý trí thông thường và khả năng đối thoại.
Gemma đạt được kết quả hàng đầu so với các mô hình mã nguồn mở có cùng kích thước trên hầu hết các bài kiểm tra. Một số điểm nổi bật:
- Toán học: Gemma xuất sắc trên các bài kiểm tra suy luận toán học như GSM8K và MATH, vượt trội so với các mô hình như Codex và Claude của Anthropic đến hơn 10 điểm.
- Lập trình: Gemma phù hợp hoặc vượt qua hiệu suất của Codex trên các bài kiểm tra lập trình như MBPP, mặc dù không được huấn luyện đặc biệt trên mã nguồn.
- Đối thoại: Gemma thể hiện khả năng trò chuyện mạnh mẽ với tỷ lệ chiến thắng 51,7% so với Mistral-7B của Anthropic trên các bài kiểm tra ưa thích của con người.
- Suy luận: Trên các nhiệm vụ yêu cầu suy luận như ARC và Winogrande, Gemma vượt trội hơn các mô hình 7B khác từ 5-10 điểm.
Tính đa dạng của Gemma qua các lĩnh vực chứng tỏ khả năng thông minh tổng quát mạnh mẽ của nó. Mặc dù còn tồn tại khoảng cách so với hiệu suất của con người, Gemma đại diện cho một bước tiến lớn trong NLP mã nguồn mở.
An toàn và Trách nhiệm
Việc phát hành mã nguồn mở của các mô hình lớn mang lại những thách thức về việc sử dụng sai cố ý và các đặc tính thiên vị tự nhiên của mô hình. DeepMind đã thực hiện các biện pháp để giảm thiểu rủi ro:
- Lọc dữ liệu: Văn bản có khả năng độc hại, bất hợp pháp hoặc thiên vị đã được loại bỏ khỏi dữ liệu huấn luyện bằng cách sử dụng bộ phân loại và phương pháp thủ thuật.
- Đánh giá: Gemma đã được thử nghiệm trên hơn 30 bài kiểm tra được chọn lọc để đánh giá tính an toàn, công bằng và độ bền. Nó phù hợp hoặc vượt qua các mô hình khác.
- Tinh chỉnh: Tinh chỉnh mô hình tập trung vào việc cải thiện khả năng an toàn như lọc thông tin và hành vi từ chối/phủ nhận thích hợp.
- Điều khoản sử dụng: Các điều khoản sử dụng cấm các ứng dụng xúc phạm, bất hợp pháp hoặc không đạo đức của các mô hình Gemma. Tuy nhiên, việc thực thi vẫn đầy thách thức.
- Thẻ mô hình: Thẻ mô hình chi tiết về khả năng, hạn chế và đặc tính thiên vị của mô hình đã được phát hành để tăng cường sự minh bạch.
Mặc dù rủi ro từ việc phát hành mã nguồn mở tồn tại, DeepMind đã quyết định rằng việc phát hành Gemma mang lại lợi ích xã hội rộng rãi dựa trên hồ sơ an toàn của nó và khả năng khuyến khích nghiên cứu. Tuy nhiên, việc giám sát cẩn thận các nguy cơ tiềm ẩn sẽ tiếp tục là rất quan trọng.
Khuyến khích làn sóng tiếp theo của Đổi mới Trí tuệ Nhân tạo
Việc phát hành Gemma như một họ mô hình mã nguồn mở hứa hẹn mở khóa tiến bộ trong cộng đồng Trí tuệ Nhân tạo:
- Tiếp cận: Gemma giảm ngưỡng cửa cho các tổ chức phát triển với công nghệ NLP tiên tiến, những tổ chức trước đây phải đối mặt với chi phí tính toán/dữ liệu cao để huấn luyện các LLMs riêng của họ.
- Ứng dụng mới: Bằng cách phát hành các điểm kiểm tra được huấn luyện trước và được điều chỉnh một cách mở rộng, DeepMind tạo điều kiện cho việc phát triển dễ dàng hơn của các ứng dụng có ích trong các lĩnh vực như giáo dục, khoa học và tiếp cận.
- Tùy chỉnh: Các nhà phát triển có thể tùy chỉnh thêm Gemma cho các ứng dụng cụ thể cho ngành công nghiệp hoặc lĩnh vực cụ thể thông qua việc tiếp tục huấn luyện trên dữ liệu sở hữu.
- Nghiên cứu: Các mô hình mã nguồn mở như Gemma khuyến khích sự minh bạch và kiểm toán lớn hơn của các hệ thống NLP hiện tại, làm sáng tỏ hướng nghiên cứu tương lai.
- Đổi mới: Sự có sẵn của các mô hình cơ bản mạnh mẽ như Gemma sẽ tăng tốc tiến triển trong các lĩnh vực như giảm thiểu thiên vị, tính chính xác và an toàn của trí tuệ nhân tạo.
Bằng cách cung cấp khả năng của Gemma cho tất cả thông qua việc phát hành mã nguồn mở, DeepMind hy vọng thúc đẩy sự phát triển có trách nhiệm của trí tuệ nhân tạo vì mục tiêu xã hội tốt đẹp.
Hành trình phía trước
Với mỗi bước tiến trong Trí tuệ Nhân tạo, chúng ta ngày càng gần hơn với các mô hình có khả năng cạnh tranh hoặc vượt qua trí tuệ con người trong tất cả các lĩnh vực. Các hệ thống như Gemma nhấn mạnh cách tiến bộ nhanh chóng trong các mô hình tự giám sát đang mở khóa các khả năng nhận thức ngày càng phức tạp.
Tuy nhiên, công việc vẫn còn để cải thiện tính đáng tin cậy, khả năng giải thích và khả năng kiểm soát của Trí tuệ Nhân tạo – các lĩnh vực mà trí tuệ con người vẫn đứng đầu. Các lĩnh vực như toán học làm nổi bật những khoảng cách kiên trì này, với Gemma đạt điểm 64% trên MMLU so với ước tính 89% hiệu suất của con người.
Đóng các khoảng cách này trong khi đảm bảo an toàn và đạo đức của các hệ thống Trí tuệ Nhân tạo ngày càng mạnh mẽ sẽ là những thách thức trung tâm trong những năm sắp tới. Việc đạt được sự cân bằng phù hợp giữa sự mở cửa và sự cẩn thận sẽ là rất quan trọng, khi DeepMind nhắm đến việc phổ cập quyền truy cập vào các lợi ích của Trí tuệ Nhân tạo trong khi quản lý những rủi ro mới nổi.
Các sáng kiến để thúc đẩy an toàn của Trí tuệ Nhân tạo – như ANC của Dario Amodei, nhóm Đạo đức và Xã hội của DeepMind và Trí tuệ Nhân tạo Hiến pháp của Anthropic – tín hiệu cho thấy sự nhận thức ngày càng tăng về nhu cầu này cho sự tinh tế. Tiến triển có ý nghĩa sẽ đòi hỏi cuộc đối thoại mở, dựa trên bằng chứng, giữa các nhà nghiên cứu, nhà phát triển, nhà quyết định chính sách và công chúng.
Nếu được điều hành một cách có trách nhiệm, Gemma không đại diện cho đỉnh cao của Trí tuệ Nhân tạo, mà là một căn cứ cho thế hệ tiếp theo của các nhà nghiên cứu Trí tuệ Nhân tạo theo bước chân của DeepMind đến Trí tuệ Nhân tạo tổng quát công bằng và có lợi ích.
Kết luận
Việc phát hành các mô hình Gemma của DeepMind đánh dấu một kỷ nguyên mới cho trí tuệ nhân tạo mã nguồn mở – một kỷ nguyên vượt qua các tiêu chí hẹp vào khả năng thông minh tổng quát. Đã được kiểm tra một cách kỹ lưỡng để đảm bảo an toàn và rộng rãi truy cập, Gemma đặt ra một tiêu chuẩn mới cho việc phát hành mở cửa trí tuệ nhân tạo một cách có trách nhiệm.
Được thúc đẩy bởi tinh thần cạnh tranh được điều chỉnh với các giá trị hợp tác, việc chia sẻ các đột phá như Gemma nâng cao tất cả các tàu trong hệ sinh thái trí tuệ nhân tạo. Cả cộng đồng bây giờ đều có quyền truy cập vào một họ LLM đa năng để thúc đẩy hoặc hỗ trợ các sáng kiến của họ.
Mặc dù rủi ro vẫn tồn tại, sự cẩn thận kỹ thuật và đạo đức của DeepMind cho thấy sự tự tin rằng các lợi ích của Gemma vượt qua các nguy cơ tiềm ẩn. Khi khả năng của trí tuệ nhân tạo trở nên ngày càng phức tạp hơn, việc duy trì sự tinh tế giữa sự mở cửa và sự cẩn thận sẽ rất quan trọng.
Gemma đưa chúng ta gần hơn một bước đến trí tuệ nhân tạo mang lại lợi ích cho toàn bộ nhân loại. Nhưng vẫn còn nhiều thách thức lớn đang chờ đợi trên con đường đến trí tuệ nhân tạo tổng quát nhân hậu. Nếu các nhà nghiên cứu trí tuệ nhân tạo, nhà phát triển và xã hội nói chung có thể duy trì sự tiến triển hợp tác, Gemma có thể một ngày nào đó được coi là một căn cứ lịch sử, thay vì đỉnh cao cuối cùng.