AKU – Đơn vị tri thức (Atomic Knowledge Unit) là một khối thông tin (ngầm hiểu là nhỏ nhất), tự nó chứa đầy đủ ý nghĩa, chính xác và độc lập, được thiết kế để dễ dàng sử dụng, tái sử dụng, và liên kết trong các hệ thống tri thức.
Khi xử lý chuẩn bị dữ liệu dành cho huấn luyện AI, nếu bạn có thể tách dữ liệu của mình thành các AKU nhỏ nhất thì hệ thống của bạn sẽ dễ dàng hơn trong việc suy luận cũng như nhận dạng các logic nằm trong dữ liệu mà bạn muốn chuyển tải.
Việc xử lý dữ liệu thành các AKU cần đảm bảo các yếu tố sau:
* 1. Tính độc lập (Self-contained)
Mỗi đơn vị tri thức nên tự nó mang đầy đủ ý nghĩa và không phụ thuộc quá nhiều vào các đơn vị khác.
Người đọc (hoặc AI) có thể hiểu nội dung mà không cần tham chiếu đến ngữ cảnh bên ngoài.
* 2. Tính chính xác (Accuracy)
Đơn vị tri thức phải chính xác, tránh gây hiểu nhầm hoặc sai lệch.
Dữ liệu không mơ hồ, các khái niệm và thuật ngữ được định nghĩa rõ ràng.
* 3. Tính ngắn gọn (Conciseness)
Mỗi đơn vị tri thức cần được tối ưu hóa về độ dài, chỉ chứa thông tin cần thiết để truyền đạt nội dung chính.
Tránh lặp lại hoặc đưa vào thông tin không liên quan.
* 4. Tính thống nhất (Consistency)
Định dạng và phong cách trình bày nên đồng nhất trong toàn bộ tập dữ liệu.
Nếu có các khái niệm tương tự, chúng cần được biểu đạt theo một cách giống nhau.
* 5. Khả năng tái sử dụng (Reusability)
Đơn vị tri thức phải đủ nhỏ và cụ thể để có thể tái sử dụng trong các bối cảnh khác nhau.
Điều này hỗ trợ việc huấn luyện mô hình AI với các ngữ cảnh và ứng dụng đa dạng.
* 6. Tính mô-đun (Modularity)
Đơn vị tri thức cần được xây dựng theo kiểu mô-đun, cho phép dễ dàng kết hợp lại thành các thông tin lớn hơn mà không bị chồng chéo.
* 7. Tính truy cập (Accessibility)
Thông tin phải dễ dàng được trích xuất, gán nhãn, hoặc tìm kiếm.
Có thể được phân loại hoặc liên kết với các đơn vị khác để tạo thành các mối quan hệ tri thức.
* 8. Tính liên kết (Interlinkability)
Các đơn vị tri thức cần liên kết chặt chẽ với nhau (nếu cần thiết) để tạo thành một hệ thống tri thức mạch lạc.
Liên kết có thể là thông qua siêu dữ liệu, đường dẫn tham chiếu, hoặc các định danh duy nhất.
* 9. Tính ngữ cảnh (Contextual Relevance)
Đơn vị tri thức phải gắn liền với ngữ cảnh cụ thể (nếu cần), chẳng hạn thông qua gán nhãn về chủ đề, thời gian, hoặc phạm vi áp dụng.
* 10. Khả năng mở rộng (Scalability)
Dữ liệu nên dễ dàng mở rộng hoặc cập nhật khi có thêm thông tin mới mà không cần thay đổi cấu trúc hiện tại.
* Ví dụ về việc tách AKU nhỏ nhất: Thay vì lưu trữ toàn bộ đoạn văn về định lý Pythagoras, bạn tách thành:
- AKU1 (phát biểu): “Trong một tam giác vuông, bình phương cạnh huyền bằng tổng bình phương hai cạnh góc vuông.”
- AKU2 (công thức): “Công thức định lý Pythagoras: \(𝑐^2 = 𝑎^2 + 𝑏^2\).”
- AKU3 (ràng buộc): “Định lý Pythagoras chỉ áp dụng cho tam giác vuông.”
Với biểu diễn như trên, AI sẽ hiểu rõ ràng và có thể áp dụng tri thức này một cách linh hoạt trong các lập luận suy diễn của mình.
MyGPT cung cấp dịch vụ xử lý dữ liệu với các chuyên gia về Khoa học dữ liệu (Data Scientic) để giúp bạn đọc, nhai, nấu nướng, băm, chặt, thêm gia vị… để chuyển dữ liệu thô của mình thành dữ liệu sẵn sàng cho huấn luyện AI một cách nhanh chóng và hợp lý.