Fact: Google Cloud khôi phục nhanh sau sự cố network nghiêm trọng

Ngày 2 tháng 6 năm 2019, Google Cloud gặp sự cố network nghiêm trọng khiến nhiều dịch vụ lớn như Gmail, YouTube, Google Drive, Snapchat và Shopify bị ảnh hưởng. Sự cố kéo dài vài giờ, gây gián đoạn trên diện rộng, đặc biệt ở Mỹ. Tuy nhiên, Google đã triển khai biện pháp khẩn cấp và khôi phục dịch vụ trong ngày, đồng thời công bố postmortem minh bạch.

494c0dfb-3d1a-4b81-a306-c56a5953bfe3

Chuyện gì đã xảy ra?

Nguyên nhân xuất phát từ thay đổi cấu hình nhằm tăng capacity ở một cụm network backbone tại vùng us-east1 (Virginia, Mỹ). Thay đổi này vô tình tạo ra network congestion trên nhiều dịch vụ phụ thuộc, dẫn đến việc lưu lượng tới và đi từ Google Cloud, Gmail, YouTube… bị gián đoạn.

Timeline sự cố

  • 02/06/2019 – 15:45 PDT: Thay đổi cấu hình network được áp dụng tại us-east1.
  • 02/06 – 16:00 PDT: Người dùng toàn cầu bắt đầu gặp sự cố truy cập Gmail, YouTube, Google Cloud API, Google Drive.
  • 02/06 – 16:30 PDT: Google xác nhận sự cố, ghi nhận mức độ ảnh hưởng lớn nhất tại miền Đông Hoa Kỳ nhưng lan ra cả châu Âu và Nam Mỹ.
  • 02/06 – 18:00 PDT: Đội ngũ Google rollback cấu hình và bắt đầu khôi phục traffic.
  • 02/06 – 19:00 PDT: Dịch vụ Gmail, YouTube và Google Cloud dần trở lại bình thường.
  • 02/06 – 20:00 PDT: Google xác nhận sự cố đã được khắc phục hoàn toàn.

Ảnh hưởng

  • Gmail, Google Drive, YouTube, Google Cloud Storage, Compute Engine và nhiều dịch vụ API bị gián đoạn.
  • Snapchat, Shopify và các ứng dụng phụ thuộc Google Cloud bị ảnh hưởng dây chuyền.
  • Người dùng ở Mỹ, đặc biệt là bờ Đông, chịu tác động nặng nhất, song hiệu ứng lan rộng tới hàng triệu người dùng toàn cầu.

Cách tổ chức khắc phục sự cố

  • Rollback nhanh chóng: Google ngay lập tức rollback thay đổi cấu hình gây nghẽn.
  • Reroute traffic: Đội ngũ kỹ sư triển khai reroute để phân tán lưu lượng qua các backbone khác.
  • Khôi phục theo từng giai đoạn: Các dịch vụ quan trọng như Gmail và YouTube được ưu tiên khôi phục trước.
  • Minh bạch thông tin: Google công bố postmortem chi tiết, thừa nhận sự cố xuất phát từ lỗi vận hành nội bộ và cam kết tăng cường quy trình kiểm thử trước khi triển khai cấu hình backbone.

Phản ứng từ cộng đồng

  • Người dùng bức xúc vì Gmail, YouTube và Google Drive đều gián đoạn cùng lúc, ảnh hưởng trực tiếp tới công việc và giải trí.
  • Cộng đồng kỹ thuật đánh giá cao việc Google công bố báo cáo chi tiết, không né tránh lỗi vận hành.
  • Sự cố được xem là bài học về rủi ro khi thay đổi cấu hình trên hệ thống phân tán toàn cầu.

DevOps VietNam facts: Một thay đổi cấu hình nhỏ ở network backbone có thể làm tê liệt dịch vụ toàn cầu. Luôn triển khai thay đổi với kiểm thử chặt chẽ và rollback plan rõ ràng, vì trong hạ tầng phân tán, tác động không bao giờ chỉ giới hạn ở một vùng.

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận