Ngày 9/4/2024, nhiều tổ chức ghi nhận hiện tượng DNS resolution chậm hoặc thất bại khi truy cập dịch vụ chạy trên AWS. Nguyên nhân đến từ vùng us-east-1, nơi hệ thống Route 53 dịch vụ DNS backbone của Amazon gặp lỗi khi đồng bộ bảng định tuyến toàn cầu.
Chỉ trong 8 phút, AWS đã rollback toàn bộ propagation lỗi và khôi phục mạng lưới DNS toàn cầu về trạng thái ổn định.

Chuyện gì đã xảy ra?
Trong một bản cập nhật định kỳ cho Route 53, AWS triển khai cơ chế mới cho incremental propagation cách phân phối bản ghi DNS theo vùng thay vì toàn cầu để giảm độ trễ. Một lỗi logic trong pipeline khiến một phần route không đồng bộ, làm mất khả năng phân giải tên miền cho hàng nghìn endpoint.
Khi phát hiện tỉ lệ lỗi vượt ngưỡng, Route 53 tự động kích hoạt rollback về bản propagation trước đó và phát lệnh flush cache toàn cầu.
Timeline sự cố
| Thời điểm (UTC) | Diễn biến chính |
|---|---|
| 18:12 | Route 53 phát hiện tỉ lệ NXDOMAIN tăng bất thường trên nhiều region. |
| 18:13 | Propagation monitor tự động cô lập phiên bản route mới. |
| 18:16 | Rollback về snapshot routing table trước đó được kích hoạt. |
| 18:18 | Global cache được làm mới trên 12 edge location. |
| 18:20 | Tỉ lệ DNS resolve thành công trở lại bình thường. |
| 18:25 | AWS đăng thông báo sự cố tạm thời, xác nhận không ảnh hưởng dữ liệu. |
Tổng thời gian khắc phục: 8 phút.
Cách tổ chức khắc phục sự cố
- Rollback tự động: Route 53 lưu nhiều snapshot routing table, cho phép revert gần như tức thời.
- Isolation logic: Propagation mới được cô lập từng region trước khi global merge, giảm tác động lan truyền.
- Global health check: AWS Health Dashboard cảnh báo khi tỉ lệ NXDOMAIN vượt 0,5%.
- Edge cache flush: Toàn bộ cache tại 12 PoP được làm mới để loại bỏ propagation lỗi.
Phản ứng từ cộng đồng
- Cộng đồng DevOps đánh giá đây là “một sự cố mẫu mực” nhanh, minh bạch và không để người dùng cảm nhận downtime.
- Nhiều chuyên gia DNS cho rằng AWS đang tiến gần tới mô hình real-time rollback propagation, một cấp độ tự phục hồi hiếm có trong hạ tầng internet.
DevOps VietNam facts: Phục hồi nhanh không chỉ đến từ giám sát tốt, mà từ kiến trúc luôn chuẩn bị sẵn phương án quay lại phiên bản an toàn nhất.




