Tác giả: Aqsa Taylor, Giám đốc Quản lý Sản phẩm, Gutsy
ngày 11 tháng 6 năm 2024
Các Mô Hình Ngôn Ngữ Lớn (LLMs) được đào tạo trên lượng dữ liệu lớn có thể giúp các nhóm vận hành bảo mật trở nên thông minh hơn. LLMs cung cấp các gợi ý và hướng dẫn trực tiếp về phản ứng, kiểm tra, quản lý tư thế và nhiều hơn nữa. Hầu hết các nhóm bảo mật đều đang thử nghiệm hoặc sử dụng LLMs để giảm thiểu công việc thủ công trong các luồng công việc. Điều này có thể là cho cả công việc vô vị và phức tạp.
Ví dụ, một LLM có thể truy vấn một nhân viên qua email xem họ có ý muốn chia sẻ một tài liệu mà là tài sản của công ty và xử lý phản ứng đó với một đề xuất cho một chuyên viên bảo mật. Một LLM cũng có thể được giao nhiệm vụ dịch các yêu cầu để tìm kiếm các cuộc tấn công chuỗi cung ứng vào các mô-đun mã nguồn mở và triển khai các đại lý tập trung vào các điều kiện cụ thể — các đóng góp mới cho các thư viện được sử dụng rộng rãi, các mẫu mã mã không đúng — với mỗi đại lý được chuẩn bị cho điều kiện cụ thể đó.
Tuy nhiên, các hệ thống AI mạnh mẽ này mang lại các rủi ro đáng kể không giống như các rủi ro khác mà các nhóm bảo mật phải đối mặt. Các mô hình điều khiển LLMs có thể bị tổn thương thông qua tiêm lời hoặc làm ô nhiễm dữ liệu. Các vòng lặp phản hồi liên tục và các thuật toán học máy mà không có hướng dẫn đủ từ con người có thể cho phép các nhà hành động xấu thăm dò kiểm soát và sau đó thuyết phục các phản ứng không nhắm mục tiêu tốt. LLMs dễ bị ảo giác, ngay cả trong các lĩnh vực hạn chế. Ngay cả những LLMs tốt nhất cũng tạo ra thông tin không có thật khi chúng không biết câu trả lời.
Quy trình bảo mật và chính sách AI xung quanh việc sử dụng và luồng công việc của LLMs sẽ trở nên quan trọng hơn khi các hệ thống này trở nên phổ biến hơn trong các hoạt động và nghiên cứu về an ninh mạng. Đảm bảo các quy trình đó được tuân thủ và được đo lường và tính toán trong các hệ thống quản trị, sẽ chứng tỏ là quan trọng để đảm bảo rằng CISOs có thể cung cấp đủ bảo hiểm GRC (Quản trị, Rủi ro và Tuân thủ) để đáp ứng các yêu cầu mới như Khung làm việc An ninh Mạng 2.0.
Hứa hẹn lớn của LLMs trong An ninh Mạng
CISOs và các nhóm của họ liên tục đấu tranh để theo kịp với đợt tăng của các cuộc tấn công mạng mới. Theo Qualys, số lượng CVE báo cáo trong năm 2023 đã đạt mức kỷ lục mới là 26,447. Đó là tăng gấp hơn 5 lần so với năm 2013.
Thách thức này chỉ trở nên khó khăn hơn khi bề mặt tấn công của các tổ chức trung bình ngày càng lớn hơn theo từng năm. Các nhóm AppSec phải bảo vệ và giám sát nhiều ứng dụng phần mềm hơn. Cloud computing, APIs, multi-cloud và các công nghệ ảo hóa đã thêm vào sự phức tạp bổ sung. Với công cụ và quy trình CI/CD hiện đại, các nhóm ứng dụng có thể phát hành mã nguồn nhanh hơn và thường xuyên hơn. Các dịch vụ Microservices đã phân mảnh ứng dụng monolithic thành nhiều API và bề mặt tấn công và cũng tạo ra nhiều lỗ hổng hơn trong tường lửa toàn cầu để giao tiếp với các dịch vụ hoặc thiết bị khách hàng bên ngoài.
Các LLMs tiên tiến mang lại hứa hẹn lớn để giảm công việc cho các nhóm bảo mật và cải thiện khả năng của họ. Công cụ lập trình dựa trên trí tuệ nhân tạo đã phổ biến rộng rãi trong phát triển phần mềm. Nghiên cứu của Github đã phát hiện ra rằng 92% các nhà phát triển đang sử dụng hoặc đã sử dụng các công cụ AI cho đề xuất và hoàn thiện mã nguồn. Hầu hết các công cụ “cộng tác” này đều có một số khả năng bảo mật. Trong thực tế, các kỹ thuật lập trình với kết quả tương đối nhị phân như việc lập trình (mã sẽ qua hoặc không qua kiểm tra đơn vị) rất phù hợp với các LLMs. Ngoài việc quét mã nguồn cho phát triển phần mềm và trong quy trình CI/CD, trí tuệ nhân tạo có thể có giá trị cho các nhóm bảo mật mạng theo nhiều cách khác:
- Phân tích Nâng cao: LLMs có thể xử lý lượng lớn dữ liệu bảo mật (nhật ký, cảnh báo, thông tin đe dọa) để xác định các mẫu và tương quan không rõ ràng với con người. Chúng có thể làm điều này trên nhiều ngôn ngữ, xuyên suốt suốt ngày đêm và đồng thời trên nhiều chiều. Điều này mở ra cơ hội mới cho các nhóm bảo mật. LLMs có thể xử lý một ngăn xếp cảnh báo gần như trong thời gian thực, đánh dấu những cảnh báo có khả năng nghiêm trọng nhất. Thông qua học củng cố, phân tích sẽ cải thiện theo thời gian.
- Tự động hóa: LLMs có thể tự động hóa các nhiệm vụ của nhóm bảo mật mà thường yêu cầu sự giao tiếp hai chiều. Ví dụ, khi một nhóm bảo mật nhận được một IoC và cần hỏi chủ sở hữu của một điểm cuối xem họ đã đăng nhập vào một thiết bị hay không, hoặc họ đang ở đâu ngoài các khu vực làm việc thông thường của họ, LLM có thể thực hiện các hoạt động đơn giản này và sau đó tiếp tục với các câu hỏi theo nhu cầu và liên kết hoặc hướng dẫn. Đây trước đây là một tương tác mà một thành viên của nhóm IT hoặc bảo mật phải tiến hành. LLMs cũng có thể cung cấp các chức năng tiên tiến hơn. Ví dụ, một Microsoft Copilot cho Bảo mật có thể tạo ra báo cáo phân tích sự cố và dịch mã độc phức tạp thành mô tả ngôn ngữ tự nhiên.
- Học và Điều chỉnh Liên tục: Không giống như các hệ thống học máy trước đây cho các chính sách và hiểu biết về bảo mật, các LLMs có thể học trên thực địa bằng cách tiêu thụ các đánh giá của con người về phản ứng của nó và bằng cách điều chỉnh lại trên các bể dữ liệu mới có thể không nằm trong các tệp nhật ký nội bộ. Trên thực tế, bằng cách sử dụng cùng một mô hình nền tảng cơ bản, các LLMs bảo mật mạng có thể được điều chỉnh liên tục phù hợp với thực tiễn.
Rủi ro của LLMs đối với An ninh Mạng
Là một công nghệ mới với một lịch sử ngắn, các LLMs mang lại những rủi ro nghiêm trọng. Hơn nữa, việc hiểu đầy đủ phạm vi của những rủi ro đó là một thách thức vì các đầu ra của LLMs không thể dự đoán hoặc lập trình 100%. Ví dụ, LLMs có thể “ảo tưởng” và tạo ra các câu trả lời không có thật hoặc trả lời sai câu hỏi, dựa trên dữ liệu tưởng tượng. Trước khi áp dụng LLMs cho các trường hợp sử dụng về an ninh mạng, người ta phải xem xét các rủi ro tiềm ẩn bao gồm:
- Tiêm Lời: Kẻ tấn công có thể tạo ra các lời nhắc độc hại nhằm mục đích tạo ra các đầu ra sai lệch hoặc gây hại. Loại tấn công này có thể lợi dụng xu hướng của LLMs tạo ra nội dung dựa trên các lời nhắc mà chúng nhận được. Trong các trường hợp sử dụng về an ninh mạng, việc tiêm lời có thể là nguy hiểm nhất dưới dạng một hình thức tấn công từ bên trong hoặc tấn công từ một người dùng không được ủy quyền sử dụng các lời nhắc để thay đổi vĩnh viễn các đầu ra hệ thống bằng cách lệch hành vi của mô hình. Điều này có thể tạo ra các đầu ra không chính xác hoặc không hợp lệ cho người dùng khác của hệ thống.
- Ô nhiễm Dữ liệu: Dữ liệu huấn luyện mà LLMs dựa vào có thể bị hỏng cố ý, làm hỏng quyết định của chúng. Trong các cài đặt về an ninh mạng, khi các tổ chức có khả năng sử dụng các mô hình được huấn luyện bởi các nhà cung cấp công cụ, ô nhiễm dữ liệu có thể xảy ra trong quá trình điều chỉnh mô hình cho khách hàng và trường hợp sử dụng cụ thể. Nguy cơ ở đây có thể là một người dùng không được ủy quyền thêm dữ liệu xấu – ví dụ, các tệp nhật ký bị hỏng – để phá hoại quá trình huấn luyện. Một người dùng được ủy quyền cũng có thể làm điều này một cách không cố ý. Kết quả sẽ là các đầu ra LLMs dựa trên dữ liệu xấu.
- Ảo tưởng: Như đã đề cập trước đó, LLMs có thể tạo ra các phản ứng không chính xác về sự thật, không logic hoặc thậm chí độc hại do hiểu lầm về các lời nhắc hoặc các lỗ hổng dữ liệu cơ bản. Trong các trường hợp sử dụng về an ninh mạng, các ảo tưởng có thể dẫn đến các lỗi nghiêm trọng gây hại cho thông tin đe dọa, triển khai và xử lý lỗ hổng, và nhiều hơn nữa. Bởi vì an ninh mạng là một hoạt động quan trọng cho nhiệm vụ, các LLMs phải được giữ cho đến một tiêu chuẩn cao hơn trong việc quản lý và ngăn chặn các ảo tưởng trong các ngữ cảnh này.
Khi các hệ thống AI trở nên mạnh mẽ hơn, triển vọng triển khai an ninh thông tin của chúng mở rộng nhanh chóng. Để rõ ràng, nhiều công ty an ninh mạng đã lâu đã sử dụng phân loại mẫu và học máy cho bộ lọc động. Điều mới trong kỷ nguyên trí tuệ nhân tạo tạo ra là các LLMs tương tác cung cấp một tầng thông minh trên các luồng công việc hiện có và các bể dữ liệu, lý tưởng là cải thiện hiệu quả và nâng cao khả năng của các nhóm an ninh mạng. Nói cách khác, GenAI có thể giúp các kỹ sư an ninh làm nhiều việc hơn với ít cố gắng và các nguồn lực giống nhau, mang lại hiệu suất tốt hơn và quy trình được tăng tốc.