DevOps VietNam

Gã khổng lồ web Cloudflare mặc định chặn bot AI thu thập nội dung

Cloudflare mặc định chặn AI crawler: Động thái đảo chiều quyền kiểm soát nội dung số

Tập đoàn công nghệ mạng Internet Cloudflare vừa công bố sẽ mặc định chặn các công cụ thu thập dữ liệu tự động dành cho trí tuệ nhân tạo (AI crawler) khỏi truy cập nội dung nếu không có sự cho phép hoặc thỏa thuận chi trả từ chủ sở hữu website. Quyết định này được đánh giá có thể gây ảnh hưởng lớn đến khả năng thu thập dữ liệu phục vụ huấn luyện mô hình AI của nhiều tổ chức công nghệ hiện nay.

Kể từ ngày 4 tháng 6, mọi tên miền mới đăng ký sử dụng dịch vụ của Cloudflare sẽ được hỏi rõ có cho phép AI crawler truy cập nội dung hay không. Đồng thời, công ty cũng triển khai mô hình “trả phí theo lần truy cập” (pay-per-crawl), cho phép các nhà xuất bản tính phí khi AI bot quét dữ liệu từ website của họ.

Cloudflare là một nhà cung cấp mạng phân phối nội dung (CDN), giúp các doanh nghiệp tăng tốc độ tải trang bằng cách lưu nội dung ở các máy chủ gần người dùng. Theo báo cáo năm 2023, khoảng 16% lưu lượng truy cập Internet toàn cầu đi qua hệ thống của Cloudflare.

“Các AI crawler đã thu thập nội dung không kiểm soát trong suốt thời gian qua. Chúng tôi muốn đưa quyền kiểm soát trở lại cho người sáng tạo nội dung, trong khi vẫn tạo điều kiện để các công ty AI đổi mới,” ông Matthew Prince, đồng sáng lập kiêm CEO Cloudflare, phát biểu hôm thứ Ba.

AI crawler là gì?

AI crawler là những chương trình tự động, được thiết kế để thu thập khối lượng lớn dữ liệu từ website, cơ sở dữ liệu và các nguồn thông tin khác, nhằm phục vụ huấn luyện các mô hình ngôn ngữ lớn (LLM) như của OpenAI hay Google. Khác với các công cụ tìm kiếm truyền thống, AI crawler thường không điều hướng người dùng quay lại nguồn gốc, khiến các nhà xuất bản nội dung mất đi lượng truy cập và doanh thu quảng cáo trực tuyến.

Động thái lần này mở rộng thêm từ công cụ mà Cloudflare từng ra mắt hồi tháng 9 năm ngoái, cho phép các nhà xuất bản chặn AI crawler chỉ với một cú nhấp chuột. Giờ đây, việc chặn mặc định áp dụng cho toàn bộ khách hàng mới sử dụng dịch vụ Cloudflare.

Phía OpenAI một trong những đơn vị phát triển AI lớn nhất cho biết họ đã từ chối tham gia kế hoạch chặn mặc định của Cloudflare, với lý do động thái này làm phát sinh một “bên trung gian” không cần thiết trong hệ thống. OpenAI nhấn mạnh rằng họ luôn tôn trọng tệp robots.txt một phương thức kỹ thuật cho phép website từ chối việc thu thập dữ liệu và cam kết tuân thủ các cài đặt của nhà xuất bản.

Theo ông Matthew Holman, chuyên gia pháp lý tại công ty luật Cripps (Anh), “AI crawler thường bị xem là xâm lấn, có thể làm quá tải hệ thống và ảnh hưởng đến trải nghiệm người dùng.” Ông cũng cho rằng nếu biện pháp của Cloudflare hiệu quả, nó có thể cản trở các chatbot AI trong việc thu thập dữ liệu phục vụ huấn luyện hoặc tìm kiếm, gây ra tác động ngắn hạn đến chất lượng mô hình và thậm chí ảnh hưởng đến khả năng tồn tại lâu dài của chúng.