By Michal Sutter – 23/08/2025
Voice Agent là gì?
Voice Agent AI là một hệ thống phần mềm có khả năng thực hiện hội thoại hai chiều, thời gian thực qua điện thoại hoặc internet (VoIP). Khác với các hệ thống IVR (Interactive Voice Response) cũ chỉ theo dạng cây lựa chọn, Voice Agent cho phép người dùng nói tự do, xử lý việc ngắt lời (barge-in), và có thể kết nối với các công cụ cũng như API bên ngoài (như CRM, hệ thống đặt lịch, thanh toán) để hoàn thành toàn bộ tác vụ từ đầu đến cuối.
Quy trình cốt lõi
1. Nhận dạng giọng nói tự động (ASR)
- Chuyển đổi âm thanh đầu vào thành văn bản theo thời gian thực.
- Cần ASR dạng streaming với kết quả dự đoán từng phần trong khoảng 200–300 ms để duy trì nhịp hội thoại tự nhiên.
2. Hiểu ngôn ngữ & Lập kế hoạch (thường kết hợp LLMs + công cụ)
- Duy trì trạng thái hội thoại và diễn giải ý định của người dùng.
- Có thể gọi API, cơ sở dữ liệu hoặc hệ thống truy xuất (RAG) để tìm câu trả lời hoặc thực hiện tác vụ nhiều bước.
3. Text-to-Speech (TTS)
- Chuyển đổi phản hồi của agent thành giọng nói tự nhiên.
- Hệ thống TTS hiện đại có thể phát âm thanh đầu tiên chỉ sau ~250 ms, hỗ trợ ngữ điệu cảm xúc và cho phép xử lý ngắt lời.
4. Vận chuyển & Tích hợp viễn thông
- Kết nối agent với mạng điện thoại cố định (PSTN), VoIP (SIP/WebRTC), và các hệ thống contact center.
- Thường bao gồm phương án dự phòng bằng DTMF (nhấn phím số) cho các quy trình nhạy cảm về tuân thủ.
Vì sao Voice Agent lại bùng nổ vào thời điểm này?
Một số xu hướng giúp Voice Agent trở nên khả thi:
- ASR và TTS chất lượng cao: Độ chính xác gần như con người và giọng tổng hợp tự nhiên.
- LLM thời gian thực: Mô hình có thể lập kế hoạch, suy luận, và tạo phản hồi với độ trễ dưới một giây.
- Cải thiện phát hiện điểm dừng câu (endpointing): Nhận diện tốt hơn việc đổi lượt nói, ngắt lời, và ranh giới cụm từ.
Tất cả kết hợp tạo nên hội thoại mượt mà, tự nhiên hơn—khiến nhiều doanh nghiệp ứng dụng Voice Agent để giảm tải cuộc gọi, hỗ trợ ngoài giờ và tự động hóa quy trình.
Voice Agent khác gì so với Voice Assistant?
Nhiều người nhầm lẫn giữa Voice Assistant (trợ lý giọng nói, như loa thông minh) và Voice Agent. Sự khác biệt là:
- Assistant: Chủ yếu trả lời câu hỏi → cung cấp thông tin.
- Agent: Thực hiện hành động → hoàn thành công việc thực tế qua API và quy trình (ví dụ: dời lịch hẹn, cập nhật CRM, xử lý thanh toán).

Top 9 Nền tảng Voice Agent AI (có khả năng thoại)
- OpenAI Voice Agents
- API đa phương thức, độ trễ thấp để xây dựng Voice Agent AI theo ngữ cảnh, thời gian thực.
- Google Dialogflow CX
- Nền tảng quản lý hội thoại mạnh mẽ, tích hợp sâu với Google Cloud và đa kênh thoại.
- Microsoft Copilot Studio
- Công cụ xây dựng agent dạng no-code/low-code cho Dynamics, CRM, và quy trình trong Microsoft 365.
- Amazon Lex
- AI hội thoại gốc AWS để xây dựng giao diện thoại và chat, tích hợp contact center trên cloud.
- Deepgram Voice AI Platform
- Nền tảng thống nhất cho ASR, TTS và điều phối agent dạng streaming—thiết kế cho doanh nghiệp.
- Voiceflow
- Nền tảng cộng tác thiết kế và vận hành agent cho voice, web, và chat.
- Vapi
- API ưu tiên nhà phát triển, hỗ trợ xây dựng, kiểm thử và triển khai Voice Agent AI nâng cao với khả năng tùy biến cao.
- Retell AI
- Bộ công cụ toàn diện để thiết kế, kiểm thử và triển khai agent AI cho call center ở cấp độ sản xuất.
- VoiceSpin
- Giải pháp contact center với bot thoại AI inbound và outbound, tích hợp CRM và nhắn tin đa kênh.
Kết luận
Voice Agent đã vượt xa IVR truyền thống. Các hệ thống hiện nay tích hợp ASR dạng streaming, bộ lập kế hoạch dùng công cụ (LLM), và TTS độ trễ thấp để thực hiện công việc thay vì chỉ định tuyến cuộc gọi.