Fact: Microsoft 365 phát hiện và ngắt vòng lặp email 900.000 thư/phút chỉ trong 6 phút

Ngày 18/1/2023, hàng nghìn tenant của Microsoft 365 bắt đầu ghi nhận hiện tượng email queue tăng bất thường, latency tăng vọt và các máy chủ Exchange Online phản hồi chậm. Trong vài phút, một vòng phản hồi (loop) giữa các rule email tự động kích hoạt, khiến hệ thống tự gửi thư cho chính mình hàng trăm nghìn lần mỗi phút.

Thay vì đổ vỡ dây chuyền, Microsoft phát hiện vòng lặp chỉ sau 6 phút, tự động kích hoạt circuit breaker, dừng toàn bộ traffic gây loop, và cô lập tác động trước khi người dùng nhận thấy sự cố.

decf8c6d-03fc-4ec0-b988-dbff06b521c5

Chuyện gì đã xảy ra?

Sự cố bắt nguồn từ một thay đổi trong rule routing của Exchange Transport, liên quan đến cơ chế “mail flow” giữa các tổ chức (cross-tenant mail flow). Một nhóm khách hàng doanh nghiệp đã cấu hình nhầm rule auto-reply, khiến thư trả lời giữa hai tenant phản hồi liên tục qua lại. Vì Exchange Online là hệ thống phân tán, vòng lặp này nhanh chóng lan qua nhiều region và queue nội bộ.

Chỉ trong 5 phút đầu, hệ thống thống kê được hơn 900.000 thư/phút, chiếm gần 15% tổng throughput của toàn bộ dịch vụ mail toàn cầu.

Timeline sự cố

Thời điểm (UTC) Diễn biến chính
09:12 Hệ thống giám sát phát hiện tăng đột biến email throughput và độ trễ trong Exchange Online.
09:14 Module anomaly detection xác định hành vi “echo loop” bất thường giữa các tenant.
09:16 Circuit Breaker của Exchange tự động cô lập rule flow gây vòng lặp, chuyển traffic sang hàng chờ an toàn.
09:18 Đội ngũ SRE xác nhận và khóa toàn bộ rule propagation.
09:25 Throughput trở lại bình thường, backlog message được xử lý tuần tự.
09:40 Microsoft công bố tạm thời về sự cố routing rule nội bộ, không có mất dữ liệu hoặc gián đoạn lớn.

Tổng thời gian ảnh hưởng: ~28 phút, trong đó phát hiện và ngắt vòng lặp chỉ mất 6 phút.

Cách tổ chức khắc phục sự cố

  • Tự động phát hiện bất thường (Anomaly Detection): Hệ thống machine learning của Exchange theo dõi hàng nghìn metric (queue length, mail delay, routing pattern) và tự nhận dạng hành vi lặp.

  • Circuit Breaker đa tầng: Khi thấy throughput vượt ngưỡng, circuit breaker lập tức cắt route đó ra khỏi mesh network, tránh lan sang các tenant khác.

  • Phục hồi có kiểm soát: Toàn bộ mail bị loop được giữ lại trong queue an toàn, chờ routing rule được xác thực trước khi xử lý.

  • Postmortem minh bạch: Microsoft công bố chi tiết trong bản Exchange Online Transport Incident Report (ID EX571), xác nhận không có thư nào bị mất, chỉ delay trung bình 22 phút.

Phản ứng từ cộng đồng

  • Cộng đồng SRE và DevOps đánh giá cao cách Microsoft biến ML thành công cụ vận hành thực chiến thay vì cảnh báo thủ công, hệ thống đã tự học và tự dừng chính mình.
  • Một số chuyên gia nhận định đây là ví dụ điển hình của “self-protection infrastructure” tầng bảo vệ nội tại nằm dưới automation pipeline.
  • Nhiều doanh nghiệp sau đó học hỏi cơ chế circuit breaker này để áp dụng trong microservices và message queue nội bộ.

DevOps VietNam facts: Sự cố là điều không thể tránh, nhưng một hệ thống hiện đại không đợi con người phản ứng. Hãy thiết kế hạ tầng có khả năng tự nhận biết và tự cắt mạch trước khi sự cố lan rộng.

Thông tin nổi bật

Sự kiện phát trực tiếp​

Event Thumbnail

Báo cáo quan trọng

Article Thumbnail
Article Thumbnail
Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận

Tiêu điểm chuyên gia