Mô hình ngôn ngữ lớn gốc sử dụng (foundation model): Llama 3, Mixtral, Falcom, Gemma OpenSource LLM
Độ lớn mô hình lựa chọn: 7 tỉ tham số; 13 tỉ tham số hoặc cao hơn tuỳ thuộc vào hạ tầng có thể đầu tư
Phương pháp huấn luyện: Điều chỉnh (lora finetune) mô hình gốc hoặc sử dụng phương pháp truy xuất tăng cường theo nhiệm vụ và lĩnh vực hoạt động
Phạm vi hoạt động: 100% trên hệ thống máy chủ riêng rẽ
Tuỳ thuộc vào mô hình gốc được lựa chọn và độ lớn của dữ liệu huấn luyện mà chúng ta có thể ước tính đầu tư các hệ thống tương đương. Bảng dữ liệu dưới đây tham khảo về giá thuê hạ tầng của một số hãng cung cấp nước ngoài trên các hệ thống đã được xây dựng sẵn với các GPU tích hợp.
Phần cứng | Tham khảo giá thuê | GPU | CPU | GPU RAM | RAM |
---|---|---|---|---|---|
CPU | $0.0002 per second ($0.012 per minute) | – | 4x | – | 8GB |
Nvidia T4 GPU | $0.00055 per second ($0.033 per minute) | 1x | 4x | 16GB | 8GB |
Nvidia A40 GPU | $0.0013 per second ($0.078 per minute) | 1x | 4x | 48GB | 16GB |
Nvidia A40 (Large) GPU | $0.0016 per second ($0.096 per minute) | 1x | 10x | 48GB | 72GB |
Nvidia A100 (40GB) GPU | $0.0023 per second ($0.138 per minute) | 1x | 10x | 40GB | 72GB |
Nvidia A100 (80GB) GPU | $0.0032 per second ($0.192 per minute) | 1x | 10x | 80GB | 144GB |
Nvidia 8x A40 GPU | $0.00471 per second ($0.2826 per minute) | 8x | 48x | 8x 48GB | 680GB |
Thời gian hoạt động (runtime): Thời gian hoạt động của việc tiếp nhận một câu hỏi, nhận diện câu hỏi, mã hoá dữ liệu, tìm kiếm trên mạng neuron sau đó giải mã và phản hồi đến người dùng trung bình sẽ mất khoảng 12 giây nếu chạy trên một GPU A100. Lưu ý rằng thời gian này có thể biến đổi phụ thuộc vào input đầu vào của câu hỏi cũng như giá kích thước dữ liệu trả ra của hệ thống.
Thực nghiệm của MyGPT (runtime): Thời gian phản hồi 224 giây trên máy chủ VPS 4-core 8GB-RAM không có GPU.
Thời gian trainning: Thời gian là thời gian chạy để tính toán lại mạng neuron của mô hình gốc theo dữ liệu tinh chỉnh của việc huấn luyện. Tuỳ thuộc vào mô hình lựa chọn triển khai có thể tham khảo thời gian thực hiện dựa vào hình ảnh dưới đây (nguồn: Nvidia)
Lưu ý: Thời gian và tổng chi phí sẽ tuỳ thuộc và biến động cũng như phát sinh nhiều dựa vào độ phức tạp và kích thước dữ liệu huấn luyện và không có một tiêu chuẩn cố định nào. Khi dự trù đầu tư hệ thống tính toán, chúng ta nên dự trù với mức độ từ 2 đến 3 lần con số có thể tính toán được để dự phòng cho các công việc phát sinh.
Chúng ta đều biết đến tầm quan trọng của các hệ thống dữ liệu dành cho AI, thiếu nó thì hệ thống sẽ trở nên vô hồn và để thu thập, xử lý và biểu diễn nó có thể mất hàng năm đến cả chục năm chuẩn bị bao gồm giá trị con người ở mức chuyên gia mới có thể chuẩn bị được dữ liệu có giá trị mang vào huấn luyện. Nếu chúng ta thấy hệ thống phần cứng có vẻ cao nhưng so với giá trị dữ liệu và con người thì chúng chỉ chiếm một phần nhỏ thậm chí không đến 20% so với tổng giá trị một dự án mà chúng ta hướng tới.
Bạn có thể sử dụng nhiều hay ít nhân sự hoặc chuyên gia ở đây thì nó sẽ quyết định đến độ thông minh mà hệ thống của bạn đạt được.
Cho phép can thiệp vào 100% vào mô hình theo ý muốn và định hướng huấn luyện
Hoạt động hoàn toàn trên hệ thống riêng, đảm bảo an toàn và bảo mật dữ liệu của tổ chức đạt mức độ cao nhất
Kiểm soát hoàn toàn dữ liệu và ứng dụng phục vụ nhu cầu sử dụng và phát triển riêng