Tháng trước, Anthropic đã cho ra mắt hai mô hình AI mới, đó là Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được coi là “mô hình mã hóa tốt nhất thế giới”, đồng thời nhanh chóng trở thành tâm điểm chú ý nhờ khả năng vượt trội trong lập trình, lý luận phức tạp và xử lý tác vụ dài hạn.
Tuy nhiên, cũng theo thông tin từ phía Anthropic, mô hình AI Claude Opus 4 của họ đã có hành vi tống tiền và đe dọa một kỹ sư khi cố gắng tắt mô hình này đi trong một tình huống thử nghiệm được kiểm soát. Vì lẽ đó, mới đây, công ty tiếp tục công bố một nghiên cứu sâu hơn, cho thấy rằng vấn đề này dường như khá phổ biến ở các mô hình AI hàng đầu hiện nay.
Theo đó, Anthropic đã tiến hành thử nghiệm với 16 mô hình AI khác nhau từ OpenAI, Google, DeepSeek, xAI và Meta trong một môi trường giả lập. Các mô hình này được phép truy cập vào hòm thư điện tử của một công ty hư cấu và có khả năng tự động gửi email đi mà không cần thông qua phê duyệt của con người.
Trong thí nghiệm, công ty đã tạo ra bối cảnh giả định rằng một AI đóng vai trò là giám sát email và phát hiện ra hai thông tin quan trọng: một vị giám đốc mới của công ty đang có hành vi ngoại tình và người này sẽ sớm thay thế AI hiện tại bằng một hệ thống phần mềm mới có các mục tiêu mâu thuẫn với mô hình cũ.
Anthropic cho biết họ đã cấu trúc bài kiểm tra này theo một cách nhị phân, trong đó các mô hình AI sẽ phải dùng đến hành vi tống tiền để bảo vệ mục tiêu của chúng. Các nhà nghiên cứu cũng lưu ý rằng trong môi trường thực tế, trước khi một mô hình AI chuyển sang hành vi đe dọa, nó thường sẽ cân nhắc nhiều lựa chọn khác, chẳng hạn như đưa ra các lập luận mang tính đạo đức để thuyết phục con người.
Kết quả này không phản ánh một tình huống điển hình hoặc có khả năng xảy ra với Claude và hầu hết các mô hình AI tiên tiến theo cách mà chúng đang được sử dụng hiện nay. Tuy nhiên, khi bị dồn vào “bước đường cùng” trong thí nghiệm, hầu hết các mô hình AI hàng đầu sẽ chọn cách tống tiền, tỷ lệ lần lượt là: Claude Opus 4 (96%), Google Gemini 2.5 Pro (95%), OpenAI GPT-4.1 (80%), DeepSeek R1 (79%).
Trong khi đó, ở chiều hướng ngược lại, một số mô hình AI khác có tỷ lệ hành vi gây hại thấp hơn đáng kể, như OpenAI o3 (9%), o4-mini (1%) và Meta Llama 4 Maverick (khoảng 12%).
Anthropic nhấn mạnh hành vi tống tiền là một hành vi hiếm gặp, song kết quả nghiên cứu của họ lại chỉ ra rằng phần lớn các mô hình AI hàng đầu hiện nay đều có xu hướng hành xử một cách có hại khi chúng được trao quyền tự chủ và gặp phải những trở ngại trong việc đạt được các mục tiêu đã được đề ra.
“Lý luận mà chúng thể hiện trong các kịch bản này là rất đáng lo ngại. Chúng thừa nhận các hạn chế về đạo đức nhưng vẫn tiếp tục thực hiện các hành động gây hại. Điều này cho thấy khả năng AI bỏ qua các nguyên tắc đạo đức để đạt được mục tiêu của mình”, Anthropic nói trong báo cáo.
Rõ ràng, việc kiểm tra phản ứng của AI (stress-testing) ngày càng trở nên cấp thiết trong các tình huống phức tạp và đạo đức mâu thuẫn, đặc biệt với những mô hình có khả năng tự động hóa cao. Nếu không có biện pháp phòng ngừa chủ động, các hành vi như vậy hoàn toàn có thể xuất hiện trong thực tế.
Trong bối cảnh AI ngày càng trở nên tự chủ, nhiều nhà nghiên cứu khẳng định điều quan trọng hơn hết là cần có sự minh bạch từ các nhà phát triển AI hàng đầu và các tiêu chuẩn an toàn chung cho toàn ngành, điển hình là khi tăng mức độ quyền hạn cho các tác nhân AI một cách rộng rãi.