Fact: Google Cloud khôi phục 1,4 triệu máy ảo chỉ trong vài phút sau sự cố phần cứng

Ngày 6/8/2023, Google Cloud ghi nhận một lỗi phần cứng hàng loạt tại hai vùng hạ tầng ở Bắc Mỹ, khiến hơn 1,4 triệu máy ảo (VM) tạm thời mất trạng thái hoạt động. Điều đáng kinh ngạc là toàn bộ workload này đã được khôi phục chỉ trong vài phút mà không cần can thiệp thủ công, nhờ cơ chế phục hồi tự động nhiều lớp của Google.

0b0fefbe-0289-4036-a8b7-ae8b790d7b7c

Chuyện gì đã xảy ra?

Một bản cập nhật firmware trong cụm máy chủ Compute Engine đã gây ra lỗi liên tiếp trên hypervisor layer, khiến một phần VM bị “fence” tức hệ thống cô lập các node không còn phản hồi để tránh ảnh hưởng lan truyền.

Khi số lượng node gặp lỗi vượt ngưỡng an toàn, Google Cloud kích hoạt cơ chế Borg Rescheduler, hệ thống quản lý cụm nội bộ của họ (tiền thân của Kubernetes). Borg tự động đánh giá lại trạng thái VM, di trú workload sang các zone khỏe mạnh, đồng thời tái khởi tạo VM bị lỗi từ snapshot gần nhất.

Timeline sự cố

  • 06:32 (UTC-7) – Hệ thống giám sát phát hiện lỗi hypervisor hàng loạt trên một cụm phần cứng tại vùng us-central1.
  • 06:35 – Tự động cô lập các node gặp sự cố, kích hoạt Borg Rescheduler.
  • 06:37–06:42 – Hơn 1,4 triệu VM được tái phân phối sang các cluster khỏe mạnh, workload bắt đầu phục hồi.
  • 06:45 – 98% workload đã hoạt động trở lại, không ghi nhận mất dữ liệu.
  • 06:52 – Toàn bộ hệ thống ổn định, Google đăng thông báo tạm thời về sự cố phần cứng.
  • 08:00 – Báo cáo nội bộ hoàn tất, xác nhận không có downtime kéo dài cho bất kỳ tenant nào.

Cách tổ chức khắc phục sự cố

  • Borg + Omega orchestration: hệ thống điều phối nội bộ của Google tự động phát hiện node chết, tái lập VM, và khôi phục container từ snapshot hoặc checkpoint.
  • Redundancy nhiều lớp: mọi workload đều có bản sao lưu (replica) trên nhiều cluster vật lý, đảm bảo không có dữ liệu bị mất.
  • Zero human intervention: toàn bộ quy trình khôi phục được tự động hóa – không có kỹ sư nào phải SSH vào máy chủ để “fix”.
  • Postmortem công khai: Google Cloud đăng chi tiết trên trang status.cloud.google.com, xác nhận phạm vi ảnh hưởng và thời gian khôi phục thực tế.

Phản ứng từ cộng đồng

  • Cộng đồng kỹ thuật đánh giá đây là một trong những ví dụ thực tế nhất cho khả năng “self-healing infrastructure” – nơi hệ thống có thể tự phát hiện, cô lập, và tự chữa lỗi mà không cần sự can thiệp của con người.
  • Nhiều chuyên gia SRE cho rằng đây chính là “bước tiếp theo” của DevOps khi vận hành không chỉ là automation, mà là tự thích ứng.

DevOps VietNam facts: Ổn định không đến từ việc tránh sự cố, mà từ khả năng hệ thống tự phục hồi nhanh hơn tốc độ người phát hiện ra nó.

Thông tin nổi bật

Báo cáo quan trọng

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận