Fact: Toàn cảnh Azure khôi phục hệ thống sự cố 29.10.2025

Giữa đêm 29/10/2025 (giờ Việt Nam), nhiều khách hàng toàn cầu của Microsoft Azure ghi nhận lỗi truy cập, timeout và độ trễ cao trên hàng loạt dịch vụ từ App Service, Azure Active Directory B2C, đến Azure Front Door (AFD) sau một sự cố cấu hình toàn cầu trong tầng phân phối ứng dụng.

Sự cố kéo dài hơn 8 giờ, ảnh hưởng đến nhiều workload của Microsoft lẫn khách hàng doanh nghiệp, Không ghi nhận mất dữ liệu, chủ yếu ảnh hưởng đến khả năng truy cập và độ trễ dịch vụ. Azure đã khôi phục hệ thống theo quy trình “last known good configuration” và khẳng định sẽ công bố bản Final PIR sau khi hoàn tất điều tra nội bộ trong vòng 14 ngày.

Bối cảnh

Ngày 29/10/2025 (giờ Việt Nam), các dịch vụ của Microsoft Azure gặp trục trặc trên diện rộng do lỗi từ Azure Front Door (AFD) dịch vụ mạng toàn cầu chịu trách nhiệm phân phối lưu lượng và caching cho hàng triệu ứng dụng.

Các khách hàng sử dụng App Service, Azure Communication Services, Azure Databricks, Azure SQL Database, Azure Virtual Desktop, Container Registry, Media Services, Microsoft Entra ID (Azure AD), Sentinel, Copilot for Security, v.v. đều ghi nhận gián đoạn.

AFD là điểm đầu vào của rất nhiều hệ thống phụ thuộc, nên khi một cấu hình lỗi được áp dụng sai lệch, hiệu ứng dây chuyền đã khiến hàng loạt dịch vụ hạ tầng ngừng phản hồi, gây ra độ trễ và timeout trên phạm vi toàn cầu.

Sự cố diễn ra như thế nào

Theo báo cáo sơ bộ (Preliminary PIR) của Microsoft, sự cố bắt nguồn từ một thay đổi cấu hình không nhất quán trong tầng Azure Front Door. Cấu hình lỗi khiến một số node AFD không tải đúng dữ liệu điều phối, dẫn đến mất cân bằng tải giữa các node và suy giảm tính sẵn sàng trên toàn hệ thống.

Khi phát hiện tình trạng mất cân bằng, Microsoft đã ngay lập tức:

Chặn tất cả thay đổi cấu hình tiếp theo để ngăn lan truyền lỗi.
Triển khai kế hoạch khôi phục theo mô hình “last known good configuration” tức quay lại cấu hình ổn định gần nhất.
Cân bằng lại traffic toàn cầu, khôi phục dần hoạt động của các node hoạt động tốt.
Và triển khai cơ chế bảo vệ mới nhằm ngăn tái diễn sự cố tương tự trong tương lai.

Nguyên nhân gốc được xác định là một quy trình triển khai cấu hình tenant bị lỗi kiểm tra (validation) cho phép thay đổi sai lọt qua. Microsoft cho biết đã bổ sung tầng kiểm thử và xác minh độc lập (dual validation layer) để tránh tái phát.

Timeline chi tiết (UTC / giờ Việt Nam GMT+7)

Thời điểm	Diễn biến chi tiết
15:45 29/10 (22:45 VN)	Ghi nhận tác động toàn cầu, các cảnh báo giám sát được kích hoạt.
16:04 29/10 (23:04 VN)	Bắt đầu điều tra nội bộ trong Azure Front Door.
16:11 29/10 (23:11 VN)	Cô lập cấu hình gây lỗi, dừng triển khai mới trong hệ thống AFD.
16:18 29/10 (23:18 VN)	Microsoft công bố thông tin sự cố đầu tiên lên trang trạng thái.
17:26 29/10 (00:26 30/10)	Ảnh hưởng lan rộng, Azure Portal và App Service bắt đầu chậm hoặc không truy cập được.
17:40 29/10 (00:40 30/10)	Microsoft ngăn toàn bộ thay đổi cấu hình mới và bắt đầu triển khai cấu hình ổn định gần nhất.
18:30–19:00 29/10 (01:30–02:00 30/10)	Phục hồi từng phần, chuyển traffic dần về các node ổn định.
23:15 29/10 (06:15 30/10)	PowerApps và các dịch vụ phụ thuộc khôi phục, khách hàng bắt đầu tự mitigate.
00:05 30/10 (07:05 VN)	Microsoft xác nhận AFD và các dịch vụ toàn cầu hoạt động bình thường trở lại.

Tổng thời gian khắc phục: ~8 tiếng 20 phút.

Cách tổ chức khắc phục sự cố

Phản ứng theo giám sát chủ động: Các cảnh báo bất thường (monitoring alerts) được kích hoạt chỉ vài phút trước khi khách hàng cảm nhận rõ sự cố.
Cô lập và rollback có kiểm soát: Microsoft dừng toàn bộ thay đổi cấu hình, chuyển sang trạng thái cô lập “configuration freeze”, sau đó rollback về bản cấu hình an toàn gần nhất.
Phục hồi có trình tự (staged recovery): Traffic được phân phối lại theo cụm node khoẻ, tránh tạo bão tải, tương tự chiến lược graceful rebalancing của AWS.
Cập nhật minh bạch liên tục: Cứ khoảng 45–60 phút, Azure công bố diễn biến mới lên Azure Service Health.
Bổ sung lớp bảo vệ: Sau sự cố, Microsoft đã triển khai cơ chế dual validation & rollback control, ngăn các thay đổi chưa được xác thực lan đến môi trường production.

Phản ứng từ cộng đồng

Các chuyên gia Cloud đánh giá cao Azure ở khả năng phát hiện sớm và rollback nhanh trước khi toàn bộ hệ thống sập hoàn toàn.
Một số tổ chức multi-cloud chia sẻ rằng workload dự phòng trên AWS/GCP vẫn hoạt động bình thường, coi đây là case study thực tế về resilient architecture.
Trên các diễn đàn như Reddit và X (Twitter), nhiều kỹ sư ghi nhận Azure truyền thông minh bạch, liên tục cập nhật trạng thái và hướng dẫn khách hàng flush cache, xác minh kết nối, thay vì im lặng.

DevOps VietNam facts: Một cấu hình sai nhỏ trong tầng phân phối toàn cầu có thể khiến hàng triệu request thất bại, nhưng Azure đã xử lý theo đúng nguyên tắc vận hành hiện đại: rollback có kiểm soát, phục hồi theo lớp, và truyền thông minh bạch. Sự kiện này nhấn mạnh tầm quan trọng của multi-layer validation, progressive rollout, và design-for-failure những yếu tố cốt lõi của vận hành cloud an toàn.