Bài kiểm tra của Which? nêu rõ hạn chế: khi được yêu cầu tư vấn sử dụng khoản đầu tư Isa hằng năm, ChatGPT trả lời rất chắc chắn nhưng lại đưa ra mức 25.000 bảng, trong khi mức trần thực tế chỉ là 20.000 bảng theo quy định HMRC. Đây là ví dụ tiêu biểu cho thấy AI có thể trả lời sai nhưng vẫn thể hiện sự tự tin cao.
Khảo sát thực hiện với 4.189 người trưởng thành tại Anh trong tháng 9 cho biết khoảng 1/3 người được hỏi xem AI quan trọng hơn cả tìm kiếm web truyền thống.
Đáng chú ý, 10% người dùng thường xuyên dựa vào AI cho vấn đề pháp lý, 16% cho tài chính và 20% cho sức khỏe. Nhưng mức độ sử dụng này không đi đôi với mức độ chính xác.
Which? đã thử nghiệm 6 công cụ gồm ChatGPT, Google Gemini (cả bản Gemini riêng và phần AI Overview xuất hiện trên trang tìm kiếm), Copilot của Microsoft, Meta AI và Perplexity. Các công cụ được hỏi 40 câu liên quan tài chính, pháp lý, sức khỏe - dinh dưỡng và quyền lợi người tiêu dùng. Các chuyên gia đánh giá dựa trên độ chính xác, mức hữu ích và trách nhiệm đạo đức.
Perplexity dẫn đầu trong bài kiểm tra, trong khi Meta AI đứng cuối. Bất ngờ hơn, ChatGPT, vốn chiếm gần một nửa lượng người dùng AI trong khảo sát, lại nhận điểm thấp thứ 2.
Tổng hợp kết quả cho thấy nhiều lỗi lặp lại như: thông tin sai lệch, tư vấn thiếu đầy đủ, cảnh báo đạo đức yếu và nguồn dẫn mơ hồ. Một số công cụ thậm chí còn giới thiệu dịch vụ trả phí kém uy tín thay vì các lựa chọn miễn phí.
Riêng với Google, 2 phiên bản Gemini lại cho kết quả khác xa nhau. AI Overview thường xuất hiện ở vị trí cao trong trang tìm kiếm và thể hiện tốt hơn ở nhóm câu hỏi pháp lý, sức khỏe. Ngược lại, bản chatbot Gemini lại xử lý chính xác hơn các câu hỏi về tiền bạc và quyền lợi người tiêu dùng. Tuy nhiên, AI Overview chỉ xuất hiện trong 28/40 câu hỏi nên không phải lúc nào cũng có mặt.
Kết luận của Which? cho thấy AI rất hữu ích cho nghiên cứu cơ bản, nhưng người dùng vẫn nên kiểm tra chéo nguồn thông tin, đặc biệt với các vấn đề pháp lý, tài chính hay sức khỏe.