Ngày 14 tháng 12 năm 2020, Google gặp sự cố toàn cầu nghiêm trọng: hầu hết các dịch vụ lớn như Gmail, YouTube, Google Drive, Google Meet, Google Docs… đều inaccessible trong gần 1 giờ. Sự cố ảnh hưởng tới hàng tỷ người dùng trên toàn thế giới, đặc biệt đúng giờ làm việc tại châu Âu.

Chuyện gì đã xảy ra?
Nguyên nhân được Google xác nhận là do sự cố trong hệ thống quản lý quota nội bộ. Cụ thể, một lỗi trong cơ chế cấp quota khiến các dịch vụ của Google không thể xác thực người dùng. Vì hạ tầng Google phụ thuộc vào hệ thống quota để quản lý tài nguyên, khi nó gặp lỗi, gần như toàn bộ dịch vụ đều ngừng hoạt động.
Timeline sự cố
- 14/12/2020 – 03:47 UTC: Người dùng trên toàn cầu bắt đầu báo cáo không truy cập được Gmail, YouTube và Google Drive.
- 03:50 UTC: Hàng loạt dịch vụ khác của Google như Docs, Meet, Calendar cũng inaccessible.
- 04:32 UTC: Google công bố đang điều tra trên trang status chính thức.
- 04:52 UTC: Google xác nhận nguyên nhân do hệ thống quản lý quota gặp sự cố, khởi động quá trình khắc phục.
- 04:54 UTC: Phần lớn dịch vụ dần được khôi phục.
- 05:32 UTC: Google xác nhận toàn bộ dịch vụ đã trở lại bình thường.
Ảnh hưởng
- Hàng tỷ người dùng trên toàn cầu bị gián đoạn, không thể truy cập Gmail, YouTube, Drive, Docs, Meet… trong gần 1 giờ.
- Các doanh nghiệp, trường học đang họp và học online qua Google Meet bị gián đoạn ngay lập tức.
- Các dịch vụ phụ thuộc API Google cũng bị ảnh hưởng dây chuyền.
Cách tổ chức khắc phục sự cố
- Phát hiện nhanh: Google Cloud giám sát phát hiện lỗi hệ thống quota chỉ vài phút sau khi sự cố lan rộng.
- Rollback hệ thống quota: Kích hoạt quy trình rollback để đưa hệ thống về trạng thái ổn định trước khi bug xuất hiện.
- Phục hồi dần theo dịch vụ: Gmail, YouTube, Drive được ưu tiên khôi phục đầu tiên, sau đó tới các ứng dụng khác.
- Minh bạch thông tin: Google công bố nguyên nhân chi tiết và postmortem trên trang Cloud Status, giải thích rõ ràng cơ chế quota bị lỗi và cam kết cải tiến quy trình kiểm thử.
- Cam kết cải tiến: Bổ sung thêm lớp bảo vệ để một sự cố quota không thể làm ảnh hưởng toàn bộ dịch vụ cùng lúc.
Phản ứng từ cộng đồng
- Người dùng trên Twitter lập tức tạo hashtag “#YouTubeDOWN” và “#GmailDOWN”, trending toàn cầu.
- Nhiều doanh nghiệp than phiền vì cuộc họp và lớp học online bị ngắt giữa chừng.
- Tuy nhiên, cộng đồng kỹ thuật ghi nhận Google đã khôi phục cực nhanh, chưa tới 1 giờ cho một sự cố ảnh hưởng ở quy mô hàng tỷ người.
DevOps VietNam facts: Sự cố Google 2020 cho thấy, một lỗi trong hệ thống nội bộ cũng có thể làm tê liệt hàng tỷ kết nối toàn cầu. Khi thiết kế hạ tầng, hãy giả định rằng một service cốt lõi có thể lỗi toàn phần, và phải có isolation đủ mạnh để tránh “single point of failure” lan ra toàn hệ thống.