20/10/2025 12:11 AM PDT, tức 14:11 giờ Việt Nam, Amazon Web Services (AWS) nền tảng cloud lớn nhất thế giới bất ngờ ghi nhận sự cố hạ tầng nghiêm trọng tại khu vực US-EAST-1 (N. Virginia), khiến hàng chục dịch vụ trọng yếu bị gián đoạn trên diện rộng.

Theo trang AWS Service Health Dashboard, lỗi được mô tả là “Increased Error Rates and Latencies” (tăng lỗi và độ trễ bất thường) ảnh hưởng đến nhiều dịch vụ cốt lõi, trong đó Amazon DynamoDB được xác nhận ở trạng thái “Disrupted”, tức tê liệt hoàn toàn.
Các dịch vụ khác như Lambda, CloudWatch, API Gateway, Elastic Compute Cloud (EC2), Elastic Container Registry (ECR), IAM, Secrets Manager, Systems Manager và hơn 30 dịch vụ AWS phụ trợ khác đều được liệt kê ở trạng thái “Impacted” có dấu hiệu hoạt động không ổn định.
Sự cố được AWS ghi nhận lần đầu lúc 12:11 AM PDT (tức 14:11 giờ Việt Nam), và đến 1:26 AM PDT, họ xác nhận có “tỷ lệ lỗi nghiêm trọng cho các request đến DynamoDB và các dịch vụ khác trong vùng US-EAST-1”. Đội ngũ kỹ sư AWS cho biết đang tích cực điều tra và giảm thiểu tác động, đồng thời hứa cập nhật tình hình trong vòng 45 phút, song đến thời điểm hiện tại vẫn chưa có thông tin khôi phục hoàn toàn.
Tác động toàn cầu
- Khu vực US-EAST-1 (N. Virginia) từ lâu được xem là “trái tim” của hạ tầng AWS, lưu trữ hàng nghìn dịch vụ backbone và hệ thống quản trị toàn cầu.
- Khi vùng này gặp sự cố, ảnh hưởng sẽ lan truyền ra nhiều khu vực khác từ API quản lý đến xác thực và định danh.
- Các nền tảng lớn như Docker, Atlassian, Slack, hoặc Stripe từng gặp tình trạng downtime tương tự trong các đợt gián đoạn của US-EAST-1 trước đây.
Trên mạng xã hội, nhiều kỹ sư SRE báo cáo hệ thống CI/CD pipeline bị lỗi không rõ nguyên nhân, trong khi một số ứng dụng doanh nghiệp ghi nhận spike latency tăng đột biến dù không chạy trực tiếp tại vùng N. Virginia. Điều này cho thấy tác động có thể vượt ra ngoài phạm vi địa lý của khu vực bị ảnh hưởng.
Bình luận sơ bộ
Đây không phải lần đầu tiên AWS gặp sự cố tại vùng N. Virginia, nhưng mức độ ảnh hưởng lần này được đánh giá là rộng và nghiêm trọng hơn các lần trước, khi lan tới DynamoDB một dịch vụ nền tảng được rất nhiều hệ thống doanh nghiệp phụ thuộc.
Các chuyên gia nhận định sự cố có thể làm lộ rõ một điểm yếu cố hữu trong ngành cloud hiện nay: mức độ phụ thuộc tập trung quá cao vào một vùng hạ tầng duy nhất.
Tình hình hiện tại
AWS đã xác nhận sự cố vẫn và cho biết họ “đang tích cực giảm thiểu lỗi và theo dõi độ trễ của các dịch vụ trong khu vực.”
Người dùng được khuyến nghị tránh thực hiện các thao tác nhạy cảm như tạo mới tài nguyên hoặc cập nhật cấu hình trong US-EAST-1 cho đến khi có thông báo ổn định chính thức.