Tác giả: Dr. Tehseen Zia
Ngày 13 tháng 12 năm 2023
“Việc đào tạo LLMs có thể phát ra hơn 626,000 pound khí CO2, tương đương với lượng khí CO2 phát ra suốt đời của năm chiếc ô tô. Hugging Face, một công ty khởi nghiệp Trí tuệ Nhân tạo, phát hiện rằng việc đào tạo BLOOM, một mô hình ngôn ngữ lớn ra mắt vào đầu năm, dẫn đến việc phát thải 25 tấn khí CO2. Tương tự, mô hình Trí tuệ Nhân tạo của Facebook, Meena, tích tụ một lượng khí CO2 tương đương với tác động môi trường của việc lái xe ô tô hơn 240,000 dặm suốt quá trình đào tạo.”
Mặc dù Trí tuệ Nhân tạo đã đạt được những tiến bộ đáng kể trong thập kỷ qua, bao gồm việc đánh bại các nhà vô địch con người trong các trò chơi chiến thuật như Cờ vua và Cờ Gô và dự đoán cấu trúc 3D của các protein, sự lựa chọn rộng rãi của mô hình ngôn ngữ lớn (LLMs) đánh dấu một sự chuyển đổi mô hình. Những mô hình này, sẵn sàng biến đổi tương tác giữa con người và máy tính, đã trở thành không thể thiếu trong nhiều lĩnh vực khác nhau, bao gồm giáo dục, dịch vụ khách hàng, truy xuất thông tin, phát triển phần mềm, truyền thông và chăm sóc sức khỏe. Trong khi những bước tiến công nghệ này mở ra những đột phá khoa học và thúc đẩy tăng trưởng công nghiệp, tồn tại một hậu quả đáng kể cho hành tinh.
Quá trình đào tạo và sử dụng LLMs tiêu thụ một lượng năng lượng lớn, tạo ra một tác động môi trường đáng kể đánh dấu bằng việc tăng lượng khí nhà kính và lượng khí CO2. Một nghiên cứu gần đây từ Khoa Công nghệ Thông tin và Khoa Học Máy tính tại Đại học Massachusetts Amherst tiết lộ rằng việc đào tạo LLMs có thể phát ra hơn 626,000 pound khí CO2, tương đương với lượng khí CO2 phát ra suốt đời của năm chiếc ô tô. Hugging Face, một công ty khởi nghiệp Trí tuệ Nhân tạo, phát hiện rằng việc đào tạo BLOOM, một mô hình ngôn ngữ lớn ra mắt vào đầu năm, dẫn đến việc phát thải 25 tấn khí CO2. Tương tự, mô hình Trí tuệ Nhân tạo của Facebook, Meena, tích tụ một lượng khí CO2 tương đương với tác động môi trường của việc lái xe ô tô hơn 240,000 dặm suốt quá trình đào tạo.
Mặc dù có việc đào tạo các mô hình ngôn ngữ lớn (LLMs), nhu cầu về máy tính đám mây, quan trọng cho LLMs, hiện đang đóng góp nhiều lượng phát thải hơn cả ngành công nghiệp hàng không toàn bộ. Một trung tâm dữ liệu đơn có thể tiêu thụ năng lượng bằng cả 50,000 ngôi nhà. Một nghiên cứu khác nhấn mạnh rằng việc đào tạo một mô hình ngôn ngữ lớn duy nhất có thể phát thải lượng khí CO2 tương đương với năng lượng mà năm chiếc ô tô sử dụng suốt cả đời chúng. Dự đoán cho biết phát thải của Trí tuệ Nhân tạo sẽ tăng vọt lên 300% vào năm 2025, nhấn mạnh sự cần thiết của việc cân bằng tiến triển của Trí tuệ Nhân tạo với trách nhiệm môi trường và thúc đẩy các sáng kiến để làm cho Trí tuệ Nhân tạo trở nên thân thiện với môi trường hơn. Để đối mặt với tác động tiêu cực của tiến triển Trí tuệ Nhân tạo đối với môi trường, Trí tuệ Nhân tạo Bền vững đang nổi lên như là một lĩnh vực nghiên cứu quan trọng.
Trí tuệ Nhân tạo Bền vững
Trí tuệ Nhân tạo Bền vững đại diện cho một sự chuyển đổi mô hình trong quá trình phát triển và triển khai các hệ thống trí tuệ nhân tạo, tập trung vào việc giảm thiểu tác động môi trường, xem xét đạo đức và các lợi ích xã hội lâu dài. Phương pháp này nhằm tạo ra các hệ thống thông minh hiệu suất năng lượng cao, có trách nhiệm môi trường và phù hợp với giá trị của con người. Trí tuệ Nhân tạo Bền vững tập trung vào việc sử dụng năng lượng sạch cho máy tính, các thuật toán thông minh tiêu thụ ít năng lượng và tuân thủ hướng dẫn đạo đức để đảm bảo quyết định công bằng và minh bạch. Quan trọng nhấn, có sự khác biệt giữa Trí tuệ Nhân tạo vì sự bền vững và Trí tuệ Nhân tạo Bền vững; Trí tuệ Nhân tạo vì sự bền vững có thể liên quan đến việc sử dụng Trí tuệ Nhân tạo để tối ưu hóa các quy trình hiện tại mà không nhất thiết xem xét các hậu quả môi trường hoặc xã hội của nó, trong khi Trí tuệ Nhân tạo Bền vững tích cực tích hợp các nguyên tắc của sự bền vững vào mọi giai đoạn của quá trình phát triển Trí tuệ Nhân tạo, từ thiết kế đến triển khai, để tạo ra một ảnh hưởng tích cực và lâu dài đối với hành tinh và xã hội.
Từ Mô hình Ngôn ngữ Lớn (LLMs) đến Mô hình Ngôn ngữ Nhỏ (SLMs)
Trong hành trình hướng tới Trí tuệ Nhân tạo Bền vững, Microsoft đang làm việc để phát triển Mô hình Ngôn ngữ Nhỏ (SLMs) để phù hợp với khả năng của Mô hình Ngôn ngữ Lớn (LLMs). Trong nỗ lực này, họ gần đây giới thiệu mô hình Orca-2, được thiết kế để suy luận như GPT-4. Khác với người tiền nhiệm của nó, Orca-1, với 13 tỷ tham số, Orca-2 chỉ chứa 7 tỷ tham số sử dụng hai kỹ thuật chính.
- Điều chỉnh Hướng dẫn: Orca-2 cải thiện bằng cách học từ các ví dụ, nâng cao chất lượng nội dung, khả năng làm việc không cần hướng dẫn trước, và kỹ năng suy luận trên nhiều nhiệm vụ khác nhau.
- Điều chỉnh Giải thích: Nhận thức về hạn chế trong việc điều chỉnh hướng dẫn, Orca-2 giới thiệu Điều chỉnh Giải thích. Điều này bao gồm việc tạo ra giải thích chi tiết cho các mô hình giáo viên, làm phong phú các tín hiệu suy luận và cải thiện sự hiểu biết tổng thể.
Orca-2 sử dụng những kỹ thuật này để đạt được suy luận cực kỳ hiệu quả, có thể so sánh được với những gì LLMs đạt được với nhiều tham số hơn nhiều. Ý chính là cho phép mô hình tìm ra cách giải quyết vấn đề một cách tốt nhất, cho dù đó là đưa ra một câu trả lời nhanh chóng hay suy nghĩ từng bước một. Microsoft gọi đây là “Suy luận Cẩn thận.”
Để huấn luyện Orca-2, Microsoft xây dựng một bộ dữ liệu huấn luyện mới bằng cách sử dụng các chú thích FLAN, Orca-1 và bộ dữ liệu Orca-2. Họ bắt đầu bằng các câu hỏi dễ, thêm vào một số câu hỏi khó khăn, và sau đó sử dụng dữ liệu từ các mô hình nói chuyện để làm cho nó thông minh hơn.
Orca-2 trải qua một quá trình đánh giá kỹ lưỡng, bao gồm suy luận, hoàn thành văn bản, cơ sở, tính đúng đắn và an toàn. Kết quả cho thấy tiềm năng cải thiện suy luận của SLM thông qua việc đào tạo chuyên sâu trên dữ liệu tổng hợp. Mặc dù có một số hạn chế, mô hình Orca-2 cho thấy triển vọng cho những cải tiến trong suy luận, kiểm soát và an toàn trong tương lai, chứng minh hiệu quả của việc áp dụng dữ liệu tổng hợp một cách chiến lược trong việc tinh chỉnh mô hình sau quá trình huấn luyện.
Ý Nghĩa của Orca-2 Đối với Trí tuệ Nhân tạo Bền vững
Orca-2 đại diện cho một bước tiến quan trọng đối với Trí tuệ Nhân tạo Bền vững, thách thức niềm tin thịnh hành rằng chỉ có các mô hình lớn, với việc tiêu thụ năng lượng lớn của chúng, mới có thể thực sự đẩy mạnh khả năng của Trí tuệ Nhân tạo. Mô hình ngôn ngữ nhỏ này đưa ra một góc nhìn khác, gợi ý rằng để đạt được sự xuất sắc trong các mô hình ngôn ngữ, không nhất thiết phải có tập dữ liệu lớn và sức mạnh tính toán lớn. Thay vào đó, nó nhấn mạnh tầm quan trọng của thiết kế thông minh và tích hợp hiệu quả.
Bước đột phá này mở ra những khả năng mới bằng cách đề xuất một sự chuyển đổi tập trung—không chỉ đơn giản là làm cho Trí tuệ Nhân tạo trở nên lớn hơn, mà là tập trung vào cách chúng ta thiết kế nó. Điều này đánh dấu một bước quan trọng trong việc làm cho Trí tuệ Nhân tạo tiên tiến trở nên dễ tiếp cận hơn đối với đại chúng rộng lớn, đảm bảo rằng sự đổi mới là bao hàm và đạt được một phạm vi người và tổ chức rộng lớn hơn.
Orca-2 có tiềm năng tác động đáng kể đến việc phát triển các mô hình ngôn ngữ trong tương lai. Cho dù là cải thiện các nhiệm vụ liên quan đến xử lý ngôn ngữ tự nhiên hay khả năng triển khai ứng dụng Trí tuệ Nhân tạo phức tạp hơn trong nhiều ngành khác nhau, những mô hình nhỏ này đều sẵn sàng mang lại những thay đổi tích cực đáng kể. Hơn nữa, chúng đóng vai trò những người tiên phong trong việc thúc đẩy các thực hành Trí tuệ Nhân tạo bền vững hơn, điều này làm hòa hợp tiến bộ công nghệ với cam kết trách nhiệm môi trường.
Thay lời kết
Orca-2 của Microsoft đại diện cho một bước tiến đột phá đối với Trí tuệ Nhân tạo Bền vững, thách thức niềm tin rằng chỉ có các mô hình lớn mới có thể đẩy mạnh Trí tuệ Nhân tạo. Bằng cách ưu tiên thiết kế thông minh hơn là kích thước, Orca-2 mở ra những khả năng mới, mang lại một cách tiếp cận tiến bộ Trí tuệ Nhân tạo có tính bao hàm và trách nhiệm cao với môi trường. Sự chuyển đổi này đánh dấu một bước tiến quan trọng hướng tới thiết kế các hệ thống thông minh tương lai.