Fact: AWS phục hồi Route 53 chỉ sau 8 phút khi bảng định tuyến toàn cầu gặp lỗi (2024)

Ngày 9/4/2024, nhiều tổ chức ghi nhận hiện tượng DNS resolution chậm hoặc thất bại khi truy cập dịch vụ chạy trên AWS. Nguyên nhân đến từ vùng us-east-1, nơi hệ thống Route 53 dịch vụ DNS backbone của Amazon gặp lỗi khi đồng bộ bảng định tuyến toàn cầu.

Chỉ trong 8 phút, AWS đã rollback toàn bộ propagation lỗi và khôi phục mạng lưới DNS toàn cầu về trạng thái ổn định.

5f552523-a7c4-4848-8275-820e6bd0ce86

Chuyện gì đã xảy ra?

Trong một bản cập nhật định kỳ cho Route 53, AWS triển khai cơ chế mới cho incremental propagation cách phân phối bản ghi DNS theo vùng thay vì toàn cầu để giảm độ trễ. Một lỗi logic trong pipeline khiến một phần route không đồng bộ, làm mất khả năng phân giải tên miền cho hàng nghìn endpoint.

Khi phát hiện tỉ lệ lỗi vượt ngưỡng, Route 53 tự động kích hoạt rollback về bản propagation trước đó và phát lệnh flush cache toàn cầu.

Timeline sự cố

Thời điểm (UTC) Diễn biến chính
18:12 Route 53 phát hiện tỉ lệ NXDOMAIN tăng bất thường trên nhiều region.
18:13 Propagation monitor tự động cô lập phiên bản route mới.
18:16 Rollback về snapshot routing table trước đó được kích hoạt.
18:18 Global cache được làm mới trên 12 edge location.
18:20 Tỉ lệ DNS resolve thành công trở lại bình thường.
18:25 AWS đăng thông báo sự cố tạm thời, xác nhận không ảnh hưởng dữ liệu.

Tổng thời gian khắc phục: 8 phút.

Cách tổ chức khắc phục sự cố

  • Rollback tự động: Route 53 lưu nhiều snapshot routing table, cho phép revert gần như tức thời.
  • Isolation logic: Propagation mới được cô lập từng region trước khi global merge, giảm tác động lan truyền.
  • Global health check: AWS Health Dashboard cảnh báo khi tỉ lệ NXDOMAIN vượt 0,5%.
  • Edge cache flush: Toàn bộ cache tại 12 PoP được làm mới để loại bỏ propagation lỗi.

Phản ứng từ cộng đồng

  • Cộng đồng DevOps đánh giá đây là “một sự cố mẫu mực” nhanh, minh bạch và không để người dùng cảm nhận downtime.
  • Nhiều chuyên gia DNS cho rằng AWS đang tiến gần tới mô hình real-time rollback propagation, một cấp độ tự phục hồi hiếm có trong hạ tầng internet.

DevOps VietNam facts: Phục hồi nhanh không chỉ đến từ giám sát tốt, mà từ kiến trúc luôn chuẩn bị sẵn phương án quay lại phiên bản an toàn nhất.

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận