Insights

Fact: Cloudflare phục hồi mạng toàn cầu sau sự cố nội bộ ngày 18/11/2025

Quản trị

Đăng ngày 19/11/2025

Ngày 18/11/2025, hệ thống của Cloudflare nhà cung cấp hạ tầng CDN và bảo mật lớn nhất thế giới gặp sự cố nội bộ khiến nhiều dịch vụ bị gián đoạn toàn cầu. Trong khoảng 11:48 – 17:14 UTC, người dùng ghi nhận lỗi khi truy cập Cloudflare Dashboard, WARP, và một số dịch vụ bảo vệ ứng dụng (Application Services).

Sự cố kéo dài gần 6 giờ trước khi toàn bộ mạng trở lại hoạt động ổn định.

Chuyện gì đã xảy ra?

Theo bản cập nhật chính thức trên Cloudflare System Status, sự cố bắt đầu từ một degradation nội bộ trong hệ thống điều phối dịch vụ toàn cầu (Global Control Plane).

Một thay đổi cấu hình thường lệ trong hệ thống bot-mitigation đã tạo ra một file “feature file” (dùng để phân loại/lọc lưu lượng bot) có kích thước vượt quá ngưỡng thiết kế. File này sau đó được lan truyền đến hàng loạt máy chủ/cluster mạng toàn cầu, khiến phần mềm routing traffic của Cloudflare bị crash vì không xử lý được quy mô file lớn.

Cloudflare xác nhận không có dấu hiệu tấn công mạng (cyberattack) sự cố do lỗi nội bộ/trojan của cấu hình, chứ không phải bị hacker gây ra.

Các cụm chịu tải ở châu Âu và Bắc Mỹ phản hồi lỗi khi đồng bộ cấu hình mới, dẫn đến việc một số dịch vụ CDN, Access và WARP tạm ngừng hoạt động. Đặc biệt, người dùng WARP tại London bị ảnh hưởng nặng nhất khi truy cập Internet qua VPN bảo mật của Cloudflare.

Timeline sự cố

Thời điểm	Diễn biến chính
11:48 UTC (18:48 VN)	Cloudflare xác nhận sự cố nội bộ, nhiều dịch vụ phản hồi lỗi gián đoạn.
12:21 UTC (19:21 VN)	Một số dịch vụ phục hồi tạm thời, nhưng error rate vẫn cao.
13:04 UTC (20:04 VN)	WARP bị vô hiệu hóa tạm thời tại London để khoanh vùng lỗi.
13:09 UTC (20:09 VN)	Đội ngũ xác định nguyên nhân và bắt đầu triển khai bản vá.
13:13 UTC (20:13 VN)	WARP và Access khôi phục, lỗi giảm mạnh.
14:42 UTC (21:42 VN)	Cloudflare Dashboard hoạt động lại, các dịch vụ ứng dụng đang dần hồi phục.
15:40 UTC (22:40 VN)	Một số lỗi tồn dư được xử lý, hệ thống chuyển sang giai đoạn giám sát.
17:14 UTC (00:14 VN, 19/11)	Cloudflare xác nhận toàn bộ mạng toàn cầu đã ổn định.

Tổng thời gian ảnh hưởng: ~6 giờ.

Cách tổ chức khắc phục sự cố

Khoanh vùng nhanh theo khu vực: Ngay khi xác định lỗi đến từ London POP, Cloudflare cô lập traffic khu vực để ngăn ảnh hưởng lan sang các vùng khác.
Rollback có kiểm soát: Triển khai lại cấu hình dịch vụ toàn cầu từ snapshot an toàn, giúp Access và WARP phục hồi trong vòng 2 giờ.
Theo dõi toàn cầu real-time: Cloudflare sử dụng hệ thống telemetry nội bộ để giám sát hơn 310 trung tâm dữ liệu và giảm dần error rate theo từng vùng.
Thông tin liên tục: Trong suốt 6 giờ, Cloudflare cập nhật trạng thái gần như 20 phút/lần từ lúc xác định sự cố đến khi phục hồi hoàn toàn.

Phản ứng từ cộng đồng

Dù phạm vi ảnh hưởng rộng, không ghi nhận downtime nghiêm trọng ở các website sử dụng CDN hoặc DNS của Cloudflare.
Cộng đồng DevOps và bảo mật đánh giá cao tốc độ phản ứng và quy trình rollback tự động của Cloudflare một ví dụ điển hình cho khả năng vận hành resilient ở quy mô hàng trăm POP toàn cầu
Các chuyên gia lưu ý rằng việc dịch vụ nội bộ gặp lỗi nhưng traffic CDN vẫn ổn định cho thấy Cloudflare đã tách biệt tốt control plane và data plane.

DevOps VietNam facts: Một hạ tầng quy mô toàn cầu không thể tránh lỗi, nhưng phân tách rõ control plane và data plane là chìa khóa để hệ thống đứng vững ngay cả khi trung tâm điều phối gặp sự cố.

Theo dõi

0 Góp ý

Được bỏ phiếu nhiều nhất

Mới nhất Cũ nhất