Ngày 8 tháng 6 năm 2021, Fastly, một trong những nhà cung cấp CDN lớn nhất thế giới, gặp sự cố nghiêm trọng khiến hàng loạt website lớn toàn cầu như Amazon, Reddit, Spotify, GitHub, BBC, Financial Times và New York Times đồng loạt inaccessible. Sự cố kéo dài gần 1 giờ, nhưng Fastly đã khôi phục nhanh chóng và công bố báo cáo minh bạch.

Chuyện gì đã xảy ra?
Một bug trong phần mềm edge của Fastly được kích hoạt bởi một cấu hình hợp lệ mà khách hàng gửi lên. Bug này gây ra hành vi không mong muốn khiến nhiều edge node trên toàn cầu bị lỗi, dẫn đến hệ thống CDN không thể phân phối nội dung.
Timeline sự cố
- 08/06/2021 – 09:47 UTC: Fastly phát hiện sự cố trên một số edge node.
- 09:58 UTC: Nhiều website lớn bắt đầu inaccessible, tác động rõ rệt tại châu Âu và Mỹ.
- 10:27 UTC: Fastly xác định nguyên nhân do bug trong phần mềm edge, kích hoạt bởi cấu hình khách hàng.
- 10:36 UTC: Triển khai rollback cấu hình và vá tạm thời.
- 10:44 UTC: Dịch vụ phần lớn đã được khôi phục.
- 11:57 UTC: Fastly xác nhận toàn bộ dịch vụ hoạt động bình thường.
Ảnh hưởng
- Hàng loạt website toàn cầu, bao gồm Amazon, Reddit, GitHub, Spotify, BBC, Financial Times, New York Times… inaccessible gần 1 giờ.
- Nhiều dịch vụ báo chí và thương mại điện tử bị gián đoạn ngay giờ cao điểm buổi sáng.
- Người dùng toàn cầu nhận thấy “internet sập” trong chốc lát, cho thấy mức độ tập trung phụ thuộc vào hạ tầng CDN.
Cách tổ chức khắc phục sự cố
- Phát hiện nhanh: Đội ngũ Fastly phát hiện sự cố chỉ trong vòng vài phút sau khi bug được kích hoạt.
- Rollback cấu hình: Ngay lập tức rollback cấu hình khách hàng gây lỗi để giảm ảnh hưởng.
- Triển khai fix tạm thời: Vá bug phần mềm edge và phân phối fix trên toàn mạng lưới.
- Minh bạch thông tin: Fastly công bố báo cáo chi tiết ngay sau sự cố, thừa nhận bug nội bộ và giải thích cách xử lý.
- Cam kết cải tiến: Bổ sung kiểm thử tự động cho cấu hình khách hàng và tăng cường giám sát edge node.
Phản ứng từ cộng đồng
- Người dùng gọi sự cố này là “một giờ internet biến mất” vì ảnh hưởng đến hàng loạt website quen thuộc.
- Nhiều chuyên gia đánh giá cao tốc độ khôi phục của Fastly chưa đầy 1 giờ với phạm vi ảnh hưởng toàn cầu.
- Sự cố trở thành minh chứng cho tầm quan trọng của CDN và cũng là cảnh báo về rủi ro tập trung hạ tầng internet.
DevOps VietNam facts: Một bug nhỏ trong phần mềm edge có thể khiến hàng loạt website toàn cầu inaccessible. Luôn thiết kế cơ chế kiểm thử và rollback nhanh cho mọi thay đổi, vì trong hệ thống phân tán, chỉ một cấu hình sai cũng có thể trở thành “internet outage”.