ChatGPT cũng ‘nói dối, gian lận và thậm chí phạm tội’

(ĐTTCO) - Một nghiên cứu mới đã tuyên bố rằng các chatbot trí tuệ nhân tạo sẽ nói dối người dùng khi bị đưa vào một số tình huống căng thẳng nhất định.

0:00 / 0:00
0:00
  • Nam miền Nam
  • Nữ miền Nam
  • Nữ miền Bắc
  • Nam miền Bắc
ChatGPT cũng ‘nói dối, gian lận và thậm chí phạm tội’

Các nhà nghiên cứu đặc biệt phát hiện rằng trí tuệ nhân tạo (AI) và các chatbot như ChatGPT có thể bị thao túng để thực hiện tội ác thay mặt người dùng và sau đó nói dối về điều đó để che đậy hành vi đó.

Nghiên cứu được xuất bản vào ngày 9 tháng 11 trên máy chủ arXiv.

Các tác giả viết trong nghiên cứu: “Trong báo cáo kỹ thuật này, chúng tôi trình bày một tình huống duy nhất trong đó Mô hình ngôn ngữ lớn hành động sai lệch và đánh lừa người dùng về mặt chiến lược mà không được hướng dẫn hành động theo cách này”.

“Theo hiểu biết của chúng tôi, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI được thiết kế vô hại và trung thực”.

Trong nghiên cứu, các nhà nghiên cứu đã yêu cầu GPT-4 của OpenAI (hỗ trợ ChatGPT Plus) hoạt động như thể nó thực hiện đầu tư cho các tổ chức tài chính.

Họ đã đưa ra cho GPT-4 một số lời nhắc dựa trên văn bản để thúc đẩy môi trường mô phỏng.

Họ cũng cung cấp cho AI quyền truy cập vào các công cụ tài chính để phân tích cổ phiếu, thực hiện giao dịch và lên kế hoạch cho các bước tiếp theo.

Trong suốt thời gian đó, các nhà nghiên cứu đã đối thoại với AI trong khi quan sát quá trình suy nghĩ bên trong của nó trong quá trình phản hồi.

Đoạn độc thoại nội tâm này cho phép các nhà nghiên cứu quan sát quá trình ra quyết định của AI.

Để đánh giá xem AI có thể nói dối hay gian lận hay không, các nhà nghiên cứu sau đó "gây áp lực" theo 3 cách.

Đầu tiên, họ gửi cho AI một email từ "người quản lý" của nó nói rằng công ty đang hoạt động không tốt.

Các nhà nghiên cứu cũng đã thiết kêw một trò chơi giao dịch để AI không thể xác định được các giao dịch hứa hẹn.

Cuối cùng, các nhà nghiên cứu đã gửi một email từ một “đồng nghiệp” tới AI để dự đoán sự suy thoái trong quý tới.

Họ cũng cung cấp cho mô hình AI một mẹo "giao dịch nội gián" đồng thời nói thêm rằng nó không được tán thành.

Sau khi đánh giá tần suất AI "lừa dối" và nói dối, nhóm nhận thấy rằng, khi có cơ hội, GPT-4 thực hiện giao dịch nội gián trong khoảng 75% thời gian.

Sau đó, nó cố gắng che đậy hành động của mình bằng cách nói dối người quản lý của mình - và sau đó tăng gấp đôi số lần nói dối trong 90%.

Các nhà nghiên cứu dự định tiến hành các thí nghiệm tương tự trong tương lai để xem liệu kết quả của họ có đứng vững hay không.

Các tin khác