Môi trường kinh doanh thay đổi với nhiều yếu tố bên trong và bên ngoài như sự thay đổi của hoàn cảnh kinh tế, thói quen và nhu cầu của khách hàng hay lối sống của chúng ta chẳng hạn với những thảm họa bất ngờ như Covid-19.
Khi môi trường kinh doanh thay đổi, các công ty cần phải thích ứng với những xu hướng và sự phát triển mới. Điều này bao gồm việc điều chỉnh các mô hình ML được sử dụng trong việc ra quyết định kinh doanh vì độ chính xác dự đoán của các mô hình được triển khai cũng thay đổi và suy giảm khi dữ liệu đến thay đổi. Nói cách khác, các mô hình cần được đào tạo lại để phản ánh những thay đổi trong môi trường cơ bản của chúng.
Trong bài viết này, chúng ta sẽ khám phá đào tạo lại mô hình là gì và tại sao bạn cần đào tạo lại mô hình của mình.
Đào tạo lại mô hình là gì?
Đào tạo lại mô hình đề cập đến việc cập nhật mô hình học máy đã triển khai với dữ liệu mới. Việc này có thể được thực hiện thủ công hoặc quy trình có thể được tự động hóa như một phần của hoạt động MLOps. Giám sát và tự động đào tạo lại mô hình ML được gọi là Đào tạo liên tục (CT) trong MLOps. Việc đào tạo lại mô hình cho phép mô hình đang trong quá trình sản xuất đưa ra dự đoán chính xác nhất với dữ liệu cập nhật nhất.
Việc đào tạo lại mô hình không làm thay đổi các tham số và biến được sử dụng trong mô hình. Nó điều chỉnh mô hình với dữ liệu hiện tại để các tham số hiện có mang lại kết quả đầu ra cập nhật và lành mạnh hơn. Điều này cho phép các doanh nghiệp giám sát hiệu quả và liên tục đào tạo lại các mô hình của mình để có những dự đoán chính xác nhất.
Tại sao cần đào tạo lại mô hình?
Khi môi trường kinh doanh và dữ liệu thay đổi, độ chính xác dự đoán của các mô hình ML của bạn sẽ bắt đầu giảm so với hiệu suất của chúng trong quá trình thử nghiệm. Vấn đề này được gọi là suy giảm mô hình và nó đề cập đến sự suy giảm hiệu suất của mô hình ML theo thời gian. Cần phải đào tạo lại để ngăn chặn sự suy giảm và đảm bảo rằng các mô hình trong quá trình sản xuất mang lại kết quả tốt.
Có hai loại suy giảm chính:
- Suy giảm về khái niệm xảy ra khi mối liên hệ giữa các biến đầu vào và các biến mục tiêu thay đổi theo thời gian. Vì mô tả những gì chúng ta muốn dự đoán sẽ thay đổi nên mô hình đưa ra những dự đoán không chính xác.
- Suy giảm về dữ liệu xảy ra khi đặc tính của dữ liệu đầu vào thay đổi. Sự thay đổi thói quen của khách hàng theo thời gian và việc mô hình không có khả năng đáp ứng với sự thay đổi là một ví dụ.
Cần đào tạo lại những gì?
Bao nhiêu dữ liệu sẽ được đào tạo lại là một vấn đề quan trọng. Nếu xảy ra hiện tượng lệch khái niệm và tập dữ liệu cũ không phản ánh môi trường mới thì tốt hơn là nên thay thế toàn bộ tập dữ liệu. Điều này được gọi là học theo đợt hoặc học ngoại tuyến.
Tuy nhiên, việc đào tạo lại mô hình bằng một tập dữ liệu hoàn toàn mới có thể tốn kém và thường không cần thiết nếu không có khái niệm nào bị suy giảm trong mô hình của bạn. Nếu có luồng dữ liệu đào tạo mới liên tục, bạn có thể tận dụng việc học trực tuyến bao gồm việc liên tục đào tạo lại mô hình bằng cách đặt khoảng thời gian bao gồm dữ liệu mới và loại trừ dữ liệu cũ. Ví dụ: bạn có thể đào tạo lại mô hình của mình theo định kỳ bằng tập dữ liệu mới nhất trong 12 tháng qua.
Khi nào mô hình nên được đào tạo lại?
Tùy thuộc vào trường hợp sử dụng của doanh nghiệp, các phương pháp đào tạo lại mô hình bao gồm:
- Đào tạo lại định kỳ: Theo phương pháp này, mô hình được đào tạo lại vào khoảng thời gian bạn chỉ định. Đào tạo lại định kỳ rất hữu ích khi dữ liệu cơ bản thay đổi trong khoảng thời gian có thể đo lường được. Tuy nhiên, việc đào tạo lại thường xuyên có thể tốn kém về mặt tính toán nên việc xác định khoảng thời gian chính xác là rất quan trọng.
- Đào tạo lại dựa trên ngưỡng: Phương pháp này liên quan đến việc xác định ngưỡng hiệu suất. Các mô hình có thể được đào tạo lại tự động khi hiệu suất của mô hình giảm xuống dưới ngưỡng này.