Tác giả: Tiến sĩ Itamar Arel
Ngày 31 tháng 1 năm 2024
Bây giờ, hơn bao giờ hết, là thời điểm cho các hệ thống dựa trên trí tuệ nhân tạo tích hợp âm thanh. Hãy xem xét một cuộc gọi đến dịch vụ khách hàng. Sớm, tất cả những điều gò ép và cứng nhắc sẽ biến mất – những giọng điệu robot cứng nhắc, menu hạn chế kiểu “nhấn số một để mua hàng”, những trải nghiệm khó chịu đã khiến chúng ta phải nhấn phím số không và hy vọng nói chuyện với một nhân viên con người. (Hoặc, với thời gian chờ đợi lâu khi chuyển đến một nhân viên con người, khiến chúng ta phải từ bỏ cuộc gọi hoàn toàn.)
Không còn nữa. Các tiến bộ không chỉ trong các mô hình ngôn ngữ lớn dựa trên transformer (LLMs) mà còn trong hệ thống nhận dạng tiếng nói tự động (ASR) và hệ thống chuyển văn bản thành tiếng nói (TTS) có nghĩa là các “đại diện” thoại thế hệ tiếp theo đã xuất hiện – nếu bạn biết cách xây dựng chúng.
Hôm nay, chúng ta sẽ nghiên cứu những thách thức đối mặt với bất kỳ ai hy vọng xây dựng một đại diện trò chuyện dựa trên âm thanh hiện đại như vậy.
Tại sao sử dụng giọng nói?
Trước khi bắt đầu, hãy nhìn nhanh vào những lợi ích và sự liên quan chung của các đại diện dựa trên giọng nói (so với tương tác dựa trên văn bản). Có nhiều lý do tại sao tương tác giọng nói có thể phù hợp hơn so với tương tác dựa trên văn bản – có thể kể đến, theo thứ tự tăng dần về mức độ nghiêm trọng:
- Sở thích hoặc thói quen – nói chuyện xuất hiện trước sự phát triển và lịch sử của việc viết
- Nhập văn bản chậm – nhiều người có thể nói nhanh hơn so với việc nhập văn bản
- Tình huống không cần sử dụng tay – như lái xe, tập thể dục hoặc rửa chén
- Mù mịt – ít nhất là trong ngôn ngữ(s) mà đại diện hiểu
- Khuyết tật – như mù, hoặc thiếu khả năng kiểm soát chuyển động không dựa vào giọng nói
Trong một thời đại có vẻ được thống trị bởi giao dịch thông qua trang web, giọng nói vẫn là một công cụ mạnh mẽ cho thương mại. Ví dụ, một nghiên cứu gần đây của JD Power về sự hài lòng của khách hàng trong ngành công nghiệp khách sạn cho thấy những khách hàng đã đặt phòng của họ qua điện thoại hài lòng hơn về kỳ nghỉ của họ so với những người đã đặt qua một đại lý du lịch trực tuyến (OTA) hoặc trực tiếp qua trang web của khách sạn.
Tuy nhiên, phản hồi giọng nói tương tác, hay còn gọi là IVRs, không đủ. Một nghiên cứu năm 2023 của Zippia cho thấy 88% khách hàng thích cuộc gọi giọng nói với một nhân viên trực tiếp thay vì điều hướng qua một menu điện thoại tự động. Nghiên cứu cũng cho thấy những điều làm phiền người ta nhất về menu điện thoại bao gồm việc nghe các lựa chọn không liên quan (69%), không thể mô tả đầy đủ vấn đề (67%), dịch vụ không hiệu quả (33%), và lựa chọn khó hiểu (15%).
Và có sự mở lòng để sử dụng trợ lý dựa trên giọng nói. Theo một nghiên cứu của Accenture, khoảng 47% người tiêu dùng đã thoải mái sử dụng trợ lý giọng nói để tương tác với doanh nghiệp và khoảng 31% người tiêu dùng đã sử dụng trợ lý giọng nói để tương tác với doanh nghiệp.
Dù là bất kỳ lý do nào, đối với nhiều người, có sự ưa thích và yêu cầu về tương tác bằng lời nói – miễn là nó tự nhiên và thoải mái.
Đặc điểm nào tạo nên một đại diện dựa trên giọng nói xuất sắc?
Nói chung, một đại diện dựa trên giọng nói xuất sắc nên phản hồi cho người dùng một cách:
- Liên quan: Dựa trên việc hiểu đúng những gì người dùng nói/mong muốn. Lưu ý rằng trong một số trường hợp, phản hồi của đại diện sẽ không chỉ là một câu trả lời bằng lời nói, mà còn là một hình thức hành động thông qua tích hợp với phía sau (ví dụ, thực sự đặt phòng khách sạn khi người gọi nói “Hãy đặt phòng”).
- Chính xác: Dựa trên các sự thật (ví dụ, chỉ nói rằng có phòng trống tại khách sạn vào ngày 19 tháng 1 nếu thực sự có)
- Rõ ràng: Phản hồi nên dễ hiểu
- Kịp thời: Với loại độ trễ mà người ta mong đợi từ một người
- An toàn: Không có ngôn ngữ xúc phạm hoặc không thích hợp, không tiết lộ thông tin được bảo vệ, v.v.
Vấn đề
Hệ thống tự động dựa trên giọng nói hiện tại cố gắng đáp ứng các tiêu chí trên nhưng đối mặt với a) sự hạn chế và b) sự khó chịu trong việc sử dụng. Một phần của điều này là kết quả của kỳ vọng cao mà ngữ cảnh trò chuyện dựa trên giọng nói đặt ra, với những kỳ vọng này chỉ càng cao hơn khi chất lượng giọng nói trong các hệ thống TTS trở nên khó phân biệt với giọng của con người. Nhưng những kỳ vọng này bị đánh bại trong các hệ thống được triển khai rộng rãi ở thời điểm hiện tại. Tại sao?
Một từ – cứng nhắc:
- Giới hạn trong lời nói – người dùng thường bị ép buộc phải nói những điều một cách không tự nhiên: trong những cụm từ ngắn, theo một thứ tự cụ thể, mà không có thông tin không cần thiết, v.v. Điều này không cung cấp sự tiến bộ nhiều hoặc không có sự tiến bộ so với hệ thống menu dựa trên số kiểu cũ.
- Quan điểm hẹp, không bao gồm rộng rãi về “lời nói chấp nhận được” – sự khoan dung thấp với ngôn ngữ địa phương, tiếng lóng, uhms và ahs, v.v.
- Không có khả năng quay lại: Nếu có điều gì đó không đúng, có ít cơ hội “sửa chữa” hoặc sửa thông tin gặp vấn đề, mà thay vào đó phải bắt đầu lại, hoặc chờ chuyển đến một người.
- Chế độ lấy lượt nghiêm túc – không có khả năng làm gián đoạn hoặc nói chuyện với một đại diện.
Không cần phải nói rằng, người ta thấy những ràng buộc này làm phiền và làm khó chịu.
Giải pháp:
Thật là một tin vui khi hệ thống trí tuệ nhân tạo hiện đại đủ mạnh mẽ và nhanh chóng để cải thiện đáng kể các trải nghiệm như trên, thay vì tiếp cận (hoặc vượt qua!) các tiêu chuẩn dịch vụ khách hàng dựa trên con người. Điều này đến từ nhiều yếu tố:
- Phần cứng nhanh hơn, mạnh mẽ hơn
- Cải thiện trong ASR (độ chính xác cao hơn, vượt qua tiếng ồn, giọng địa phương, v.v.)
- Cải thiện trong TTS (âm thanh tự nhiên hoặc thậm chí là giọng nói được sao chép)
- Xuất hiện của các mô hình LLM có khả năng sinh (cuộc trò chuyện tự nhiên)
Điểm cuối cùng là một yếu tố quan trọng. Thông tin chính là một mô hình dự đoán tốt có thể phục vụ như một mô hình sinh tốt. Một đại diện nhân tạo có thể đạt được hiệu suất trò chuyện gần với mức độ của con người nếu nó nói những gì một mô hình LLM đủ tốt dự đoán là điều có khả năng cao nhất mà một nhân viên phục vụ khách hàng con người tốt sẽ nói trong ngữ cảnh trò chuyện cụ thể đó.
Nhưng chờ đợi sự xuất hiện của hàng chục các công ty khởi nghiệp trí tuệ nhân tạo hi vọng giải quyết vấn đề đại diện trò chuyện dựa trên giọng nói chỉ bằng cách chọn và sau đó kết nối các mô-đun ASR và TTS sẵn có với một hạt nhân LLM. Theo quan điểm này, giải pháp chỉ là vấn đề chọn một kết hợp giảm thiểu độ trễ và chi phí. Và tất nhiên, điều đó quan trọng. Nhưng đó có đủ không?
Không nhanh chóng như vậy
Có nhiều lý do cụ thể tại sao phương pháp đơn giản đó không hoạt động, nhưng chúng bắt nguồn từ hai điểm chung:
Các mô hình LLM thực sự không thể, chỉ một mình, cung cấp cuộc trò chuyện văn bản chất lượng tốt cần thiết cho các ứng dụng doanh nghiệp như dịch vụ khách hàng. Vì vậy, chúng cũng không thể, chỉ một mình, thực hiện điều đó cho cuộc trò chuyện dựa trên giọng nói. Cần có thêm yếu tố nào đó.
Ngay cả khi bạn bổ sung cho LLMs những điều cần thiết để tạo ra một đại diện trò chuyện văn bản tốt, việc biến nó thành một đại diện trò chuyện dựa trên giọng nói xuất sắc đòi hỏi nhiều hơn chỉ việc kết nối nó với các mô-đun ASR và TTS tốt nhất mà bạn có thể chi trả.
Hãy xem xét một ví dụ cụ thể về mỗi thách thức này.
Thách thức 1: Giữ cho Nó Thực Tế
Như đã biết rộng rãi, LLMs đôi khi tạo ra thông tin không chính xác hoặc ‘mộng ảo’. Điều này làm hỏng trong bối cảnh của nhiều ứng dụng thương mại, ngay cả khi điều này có thể tạo ra một ứng dụng giải trí tốt nơi độ chính xác có thể không phải là điểm chính.
Việc LLMs đôi khi tạo ra mộng ảo chỉ là điều dễ dàng hiểu, khi suy nghĩ kỹ. Đây là một hậu quả trực tiếp của việc sử dụng các mô hình được huấn luyện trên dữ liệu từ một năm (hoặc hơn) trước để tạo ra các câu trả lời cho những câu hỏi về sự thật không phải là một phần của hoặc suy luận từ một tập dữ liệu (bất kỳ lớn nào) có thể đã cũ một năm trở lại. Khi người gọi hỏi “Số thành viên của tôi là gì?”, một mô hình LLM đơn giản chỉ có thể tạo ra một câu trả lời có vẻ hợp lý, chứ không phải là chính xác.
Các cách phổ biến nhất để giải quyết vấn đề này bao gồm:
- Feine-tuning: Huấn luyện lại LLM đã được huấn luyện trước, lần này trên tất cả dữ liệu cụ thể cho lĩnh vực mà bạn muốn nó có thể trả lời đúng.
- Kỹ thuật đặc biệt: Thêm dữ liệu/hướng dẫn bổ sung như một đầu vào cho LLM, bên cạnh lịch sử trò chuyện
- Tăng cường sinh sản có lấy lại (RAG): Giống như kỹ thuật đặc biệt, trừ khi dữ liệu được thêm vào đề xuất được xác định ngay tại thời điểm bằng cách so khớp ngữ cảnh trò chuyện hiện tại (ví dụ, khách hàng đã hỏi “Khách sạn của bạn có hồ bơi không?”) với một chỉ số nhúng mã hóa của dữ liệu cụ thể cho lĩnh vực của bạn (bao gồm, ví dụ, một tệp nói: “Đây là các tiện nghi có sẵn tại khách sạn: hồ bơi, xông hơi, trạm sạc EV.”).
- Kiểm soát dựa trên quy tắc: Giống như RAG, nhưng điều cần được thêm vào (hoặc trừ đi) từ đề xuất không được lấy lại bằng cách so khớp một bộ nhớ thần kinh mà là được xác định thông qua quy tắc đã được lập trình (và được lập trình bằng tay).
Lưu ý rằng không có phương pháp nào phù hợp với tất cả mọi thứ. Việc phương pháp nào sẽ phù hợp sẽ phụ thuộc vào, ví dụ, dữ liệu cụ thể cho lĩnh vực mà thông tin đang hướng dẫn câu trả lời của đại diện. Đặc biệt, nó sẽ phụ thuộc vào việc liệu dữ liệu đó có thay đổi thường xuyên (từ cuộc gọi này sang cuộc gọi khác, ví dụ như tên khách hàng) hay ít khi (ví dụ, lời chào ban đầu: “Xin chào, cảm ơn bạn đã gọi đến Khách sạn Budapest. Làm thế nào tôi có thể giúp bạn hôm nay?”). Feine-tuning không phù hợp cho trường hợp đầu tiên, và RAG sẽ là một giải pháp vụng trộm cho trường hợp thứ hai. Vì vậy, một hệ thống hoạt động sẽ phải sử dụng một loạt các phương pháp này.
Hơn nữa, việc tích hợp các phương pháp này với LLM và lẫn nhau một cách giảm thiểu độ trễ và chi phí đòi hỏi kỹ thuật kỹ lưỡng. Ví dụ, hiệu suất RAG của mô hình của bạn có thể cải thiện nếu bạn feine-tuning nó để thuận tiện cho phương pháp đó.
Có thể không có gì là điều bất ngờ khi mỗi phương pháp này lại mang đến những thách thức riêng của chúng. Ví dụ, hãy xem xét việc feine-tuning. Feine-tuning mô hình đã được huấn luyện trước trên dữ liệu cụ thể cho lĩnh vực của bạn sẽ cải thiện hiệu suất của nó trên dữ liệu đó, đúng. Nhưng feine-tuning sửa đổi các tham số (trọng số) là cơ sở của hiệu suất tổng quát của mô hình đã được huấn luyện trước (giả sử là khá tốt). Sự sửa đổi này do đó gây ra việc “quên” (hoặc “quên thảm họa”) một số kiến thức trước của mô hình. Điều này có thể dẫn đến mô hình đưa ra các câu trả lời không chính xác hoặc không thích hợp (thậm chí không an toàn). Nếu bạn muốn đại diện của mình tiếp tục phản hồi chính xác và an toàn, bạn cần một phương pháp feine-tuning giảm thiểu hiện tượng “quên thảm họa”.
Thách thức 2: Kết thúc Cuộc gọi (Endpointing)
Xác định khi nào khách hàng đã kết thúc nói chuyện là quan trọng để giữ cho luồng trò chuyện tự nhiên. Tương tự, hệ thống phải xử lý các gián đoạn một cách linh hoạt, đảm bảo cuộc trò chuyện vẫn mạch lạc và phản hồi theo nhu cầu của khách hàng. Đạt được điều này theo một tiêu chuẩn có thể so sánh với tương tác con người là một nhiệm vụ phức tạp nhưng là quan trọng để tạo ra trải nghiệm trò chuyện tự nhiên và dễ chịu.
Một giải pháp hiệu quả yêu cầu các nhà thiết kế xem xét các câu hỏi như:
- Bao lâu sau khi khách hàng ngừng nói chuyện, đại diện nên đợi trước khi quyết định rằng khách hàng đã dừng lại?
- Liệu điều trên có phụ thuộc vào việc khách hàng đã hoàn thành một câu đầy đủ không?
- Nên làm gì nếu khách hàng gián đoạn đại diện?
- Đặc biệt, đại diện có nên giả định rằng điều nó đang nói đã không được nghe thấy bởi khách hàng không?
Những vấn đề này, chủ yếu liên quan đến vấn đề thời gian, đòi hỏi kỹ thuật kỹ lưỡng ngoài việc liên quan đến việc làm cho một LLM đưa ra một phản hồi chính xác.
Kết luận
Sự tiến triển của các hệ thống dựa trên giọng nói được trí tuệ nhân tạo hứa hẹn một sự chuyển động cách mạng trong động lực dịch vụ khách hàng, thay thế các hệ thống điện thoại cổ điển bằng các công nghệ LLM, ASR và TTS tiên tiến. Tuy nhiên, việc vượt qua những thách thức về thông tin mộng ảo và kết thúc cuộc gọi mạch lạc sẽ quan trọng để cung cấp các tương tác giọng nói tự nhiên và hiệu quả.
Tự động hóa dịch vụ khách hàng có thể trở thành một thay đổi đích thực cho doanh nghiệp, nhưng chỉ khi được thực hiện đúng đắn. Trong năm 2024, đặc biệt là với tất cả những công nghệ mới này, chúng ta cuối cùng có thể xây dựng các hệ thống có thể cảm nhận được tự nhiên và linh hoạt và hiểu chúng ta một cách mạnh mẽ. Tác động ròng sẽ giảm thời gian chờ đợi và cải thiện trải nghiệm hiện tại của chúng ta với các trợ lý giọng nói, đánh dấu một kỷ nguyên biến đổi trong đối thoại và chất lượng dịch vụ khách hàng.