Fact: Google Cloud xử lý sự cố mất traffic 70 phút do lỗi route propagation

Ngày 25/04/2024, Google Cloud ghi nhận một sự cố ảnh hưởng đến nhiều dịch vụ trọng yếu, bao gồm Compute Engine, Cloud SQL, Cloud Run, MemoryStore, Cloud Functions và một phần hệ thống điều phối nội bộ.

Nguyên nhân không đến từ tấn công hay mất điện, mà bắt nguồn từ một lỗi trong hệ thống route propagation nội bộ thành phần chịu trách nhiệm phân phối tuyến mạng bên trong cơ sở hạ tầng của Google.

Sự cố kéo dài khoảng 70 phút trước khi Google khôi phục hoàn toàn. Điều đáng chú ý là phần lớn workload của khách hàng vẫn tiếp tục chạy ổn định nhờ cơ chế tự phục hồi của mạng Google.

Chuyện gì đã xảy ra?

Hệ thống mạng nội bộ của Google Cloud vận hành trên một lớp điều phối route tự động. Trong một bản cập nhật thường lệ, một lỗi trong việc quảng bá tuyến (route propagation) khiến một số thành phần trong control plane không thể truy cập đúng mục tiêu. Điều này dẫn đến:

Một số instance Compute Engine không nhận được metadata đúng thời điểm
Một phần API của Cloud SQL, Cloud Run bị timeout
Các dịch vụ cần truy xuất vào control plane gặp lỗi mức độ nhẹ đến trung bình

Điểm quan trọng: data plane vẫn chạy, ứng dụng của khách hàng không bị “sập”, nhưng khả năng tương tác với API bị ảnh hưởng.

Timeline sự cố

10:49 PST (00:49 VN, 26/4) Google phát hiện các tuyến mạng nội bộ không cập nhật chính xác, ảnh hưởng đến API và một phần control plane.
10:56 PST (00:56 VN) Google cô lập khu vực mạng bị lỗi và bắt đầu triển khai rollback.
11:10 PST (01:10 VN) Các tuyến mạng bắt đầu phục hồi, nhưng một số API vẫn timeout.
11:31 PST (01:31 VN) Đa số vùng (region) ghi nhận phục hồi và giảm lỗi đáng kể.
11:59 PST (01:59 VN) Google thông báo sự cố được khắc phục, toàn bộ dịch vụ trở lại ổn định.

Tổng thời gian ảnh hưởng: ~70 phút.

Ảnh hưởng

Một số API gặp lỗi hoặc độ trễ tăng nhưng workload đang chạy không gián đoạn.
Tỷ lệ lỗi Cloud SQL và Cloud Run tăng đột biến trong phút đầu nhưng giảm nhanh sau khi cô lập tuyến.
Các zone và region phục hồi theo từng cụm, không có downtime trên diện rộng.

Cách tổ chức khắc phục sự cố

Cô lập chính xác vùng mạng lỗi: Google xác định được cluster propagation lỗi chỉ trong vài phút và chặn ảnh hưởng lan rộng.
Rollback nhanh cấu hình route: Các tuyến mạng bị hỏng được thay thế bằng snapshot route ổn định.
Đảm bảo data plane không gián đoạn: Dù control plane gặp lỗi, traffic người dùng vẫn chạy bình thường nhờ kiến trúc tách biệt.
Recovery theo tầng: Metadata, API, SQL, Run phục hồi theo sequence ưu tiên, đảm bảo không kéo theo lỗi cấp ứng dụng.
Thông tin minh bạch: Google đăng postmortem chính thức với đầy đủ timestamp và nguyên nhân kỹ thuật.

Phản ứng từ cộng đồng

Các chuyên gia hạ tầng đánh giá cao khả năng khắc phục trong chưa đầy 70 phút với một lỗi liên quan đến routing loại sự cố thường gây ảnh hưởng cực lớn.
Nhiều chuyên gia SRE ghi nhận Google xử lý chuẩn theo “playbook route rollback” và giữ control plane phục hồi nhanh.
Khách hàng lớn trong tài chính và SaaS xác nhận không có downtime dịch vụ quan trọng.

DevOps VietNam facts: Một sự cố network trong control plane có thể ảnh hưởng mạnh nhiều dịch vụ, nhưng với kiến trúc tách biệt và thiết kế rollback chủ động, hệ thống vẫn duy trì được tính ổn định. Khả năng cô lập lỗi nhanh quan trọng không kém khả năng scale.