Tenable phát hiện 7 lỗ hổng trong ChatGPT cho phép tấn công Indirect Prompt Injection đánh cắp dữ liệu

Các nhà nghiên cứu bảo mật từ Tenable vừa công bố chi tiết về 7 lỗ hổng và kỹ thuật tấn công mới ảnh hưởng đến các mô hình GPT-4o và GPT-5 của OpenAI. Các lỗ hổng này, chủ yếu xoay quanh “Indirect Prompt Injection”, có thể bị tin tặc khai thác để thao túng AI thực hiện các hành vi độc hại, bao gồm cả việc đánh cắp thông tin cá nhân từ bộ nhớ và lịch sử chat của người dùng.

Theo báo cáo của Tenable, các lỗ hổng này khiến hệ thống AI dễ bị tấn công Indirect Prompt Injection. Với kỹ thuật này, hacker có thể chèn các prompt chứa mã độc vào các nguồn dữ liệu ngoại lai mà AI tin cậy (như trang web, tài liệu), khiến ChatGPT thực thi các chỉ thị ngoài ý muốn. OpenAI đã giải quyết một số vấn đề được báo cáo.

Các nhà nghiên cứu Moshe Bernstein và Liv Matan đã chỉ ra các điểm yếu nghiêm trọng. Một trong các kỹ thuật là tiêm nhiễm qua các trang web đáng tin cậy . Hacker chèn prompt độc hại vào phần bình luận của một trang web, sau đó yêu cầu ChatGPT tóm tắt nội dung trang web đó, khiến AI vô tình thực thi prompt độc hại.

Một kỹ thuật nguy hiểm hơn là “zero-click” indirect prompt injection thông qua search context. Hacker có thể poisoning nội dung của một trang web đã được Bing hoặc crawler của OpenAI lập chỉ mục. Khi người dùng hỏi ChatGPT về trang web đó, mô hình sẽ tự động thực thi các prompt độc hại mà không cần người dùng nhấp chuột. Các kỹ thuật khác bao gồm tấn công one-click (sử dụng tham số ?q= trong URL) và vượt qua cơ chế an toàn bằng cách dùng link theo dõi quảng cáo của bing.com (một domain được tin cậy) để che giấu URL độc hại.

Báo cáo cũng mô tả kỹ thuật Conversation Injection và Memory Injection. Hacker thao túng AI tóm tắt một trang web chứa prompt ẩn, khiến các chỉ thị độc hại này bị đưa vào bối cảnh hội thoại hoặc lưu vào ChatGPT memory của người dùng, dẫn đến các phản hồi ngoài ý muốn hoặc rò rỉ dữ liệu trong các tương tác sau này. Một kỹ thuật khác lợi dụng lỗi render Markdown để che giấu các prompt độc hại khỏi tầm mắt người dùng.

Phát hiện của Tenable bổ sung vào danh sách ngày càng tăng các phương thức tấn công AI mới như PromptJacking, Claude pirate, và agent session smuggling. Nó nhấn mạnh rằng việc cho phép các AI agent tương tác với các công cụ và hệ thống bên ngoài, tuy cần thiết, nhưng cũng làm mở rộng đáng kể bề mặt tấn công. Tenable lưu ý rằng prompt injection là một vấn đề cố hữu của LLM và khó có thể được khắc phục triệt để trong tương lai gần.