Fact: GitHub Actions xử lý sự cố backlog kéo dài hơn 7 giờ vào đầu năm 2023

Đầu năm 2023, hàng triệu lập trình viên trên khắp thế giới gặp hiện tượng workflow GitHub Actions treo hàng giờ, không chạy dù chỉ là job đơn giản. Nguyên nhân không đến từ pipeline hay repository, mà từ lỗi trong hệ thống provisioning runner của GitHub, khiến toàn bộ workflow bị dồn hàng theo cấp số nhân.

b08376a0-8925-4ba6-90fa-999dc31ede52

Sự cố kéo dài hơn 7 giờ, trở thành một ví dụ điển hình về cách GitHub vận hành CI/CD ở quy mô toàn cầu.

Chuyện gì đã xảy ra?

Một lỗi trong tầng provisioning runner khiến GitHub không thể tạo đủ runner mới. Khi tỉ lệ tạo runner thất bại tăng, toàn bộ workflow bắt đầu xếp hàng, từ job nhỏ cho đến build thất bại đều bị queue kéo dài. Không có dữ liệu nào bị mất, nhưng ảnh hưởng đến tiến độ phát triển của hàng triệu lập trình viên.

Timeline sự cố

Thời điểm PST (VN) Diễn biến
08:56 PST (23:56 VN) GitHub ghi nhận queue tăng bất thường.
09:44 PST (00:44 VN) Provisioning runner lỗi, backlog tăng mạnh.
10:14 PST (01:14 VN) Xác định cụm runner backend gặp trục trặc.
11:34 PST (02:34 VN) Cô lập cluster lỗi, redirect workload sang cụm khác.
13:10 PST (04:10 VN) Mở rộng autoscaling runner để xử lý backlog.
14:17 PST (05:17 VN) Backlog giảm đáng kể, workflow bắt đầu chạy đều.
16:34 PST (07:34 VN) Backlog được xử lý hoàn toàn, hệ thống ổn định trở lại.

Tổng thời gian ảnh hưởng: 7 giờ 38 phút.

Ảnh hưởng

  • Workflow CI/CD chậm hàng giờ ở quy mô toàn cầu.
  • Doanh nghiệp phụ thuộc hoàn toàn vào Actions phải trì hoãn release.
  • Nhiều pipeline microservices và monorepo bị nghẽn theo chuỗi.
  • Không xảy ra mất dữ liệu nhưng tiến độ phát triển bị ảnh hưởng rõ rệt.

Cách tổ chức khắc phục sự cố

  • Khoanh vùng nhanh cụm runner lỗi trong giờ đầu tiên.
  • Cô lập cluster sai và chuyển workload sang cluster ổn định.
  • Tăng autoscale runner để giải quyết backlog nhanh nhất có thể.
  • Điều phối lại workload theo vùng để giảm tải cục bộ.
  • Cập nhật minh bạch theo từng mốc thời gian trên status page.

Phản ứng từ cộng đồng

  • Developer toàn cầu phàn nàn về workflow treo hàng giờ.
  • Các team DevOps phải trì hoãn lịch build và release.
  • Cộng đồng đánh giá cao sự minh bạch của GitHub trong quá trình khắc phục.
  • Nhiều tổ chức rút ra nhu cầu có self-hosted runner dự phòng.

DevOps VietNam facts: Sự cố tại hạ tầng CI/CD lớn không thể tránh khỏi, nhưng cách tổ chức khôi phục mới quyết định độ tin cậy. GitHub cho thấy khả năng khoanh vùng nhanh, mở rộng hạ tầng và xử lý backlog là nền tảng để giữ cho chuỗi phát triển phần mềm không bị đứt gãy.

Thông tin nổi bật

Sự kiện phát trực tiếp​

Event Thumbnail

Báo cáo quan trọng

Article Thumbnail
Article Thumbnail
Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận

Tiêu điểm chuyên gia