Đầu năm 2023, hàng triệu lập trình viên trên khắp thế giới gặp hiện tượng workflow GitHub Actions treo hàng giờ, không chạy dù chỉ là job đơn giản. Nguyên nhân không đến từ pipeline hay repository, mà từ lỗi trong hệ thống provisioning runner của GitHub, khiến toàn bộ workflow bị dồn hàng theo cấp số nhân.

Sự cố kéo dài hơn 7 giờ, trở thành một ví dụ điển hình về cách GitHub vận hành CI/CD ở quy mô toàn cầu.
Chuyện gì đã xảy ra?
Một lỗi trong tầng provisioning runner khiến GitHub không thể tạo đủ runner mới. Khi tỉ lệ tạo runner thất bại tăng, toàn bộ workflow bắt đầu xếp hàng, từ job nhỏ cho đến build thất bại đều bị queue kéo dài. Không có dữ liệu nào bị mất, nhưng ảnh hưởng đến tiến độ phát triển của hàng triệu lập trình viên.
Timeline sự cố
| Thời điểm PST (VN) | Diễn biến |
|---|---|
| 08:56 PST (23:56 VN) | GitHub ghi nhận queue tăng bất thường. |
| 09:44 PST (00:44 VN) | Provisioning runner lỗi, backlog tăng mạnh. |
| 10:14 PST (01:14 VN) | Xác định cụm runner backend gặp trục trặc. |
| 11:34 PST (02:34 VN) | Cô lập cluster lỗi, redirect workload sang cụm khác. |
| 13:10 PST (04:10 VN) | Mở rộng autoscaling runner để xử lý backlog. |
| 14:17 PST (05:17 VN) | Backlog giảm đáng kể, workflow bắt đầu chạy đều. |
| 16:34 PST (07:34 VN) | Backlog được xử lý hoàn toàn, hệ thống ổn định trở lại. |
Tổng thời gian ảnh hưởng: 7 giờ 38 phút.
Ảnh hưởng
- Workflow CI/CD chậm hàng giờ ở quy mô toàn cầu.
- Doanh nghiệp phụ thuộc hoàn toàn vào Actions phải trì hoãn release.
- Nhiều pipeline microservices và monorepo bị nghẽn theo chuỗi.
- Không xảy ra mất dữ liệu nhưng tiến độ phát triển bị ảnh hưởng rõ rệt.
Cách tổ chức khắc phục sự cố
- Khoanh vùng nhanh cụm runner lỗi trong giờ đầu tiên.
- Cô lập cluster sai và chuyển workload sang cluster ổn định.
- Tăng autoscale runner để giải quyết backlog nhanh nhất có thể.
- Điều phối lại workload theo vùng để giảm tải cục bộ.
- Cập nhật minh bạch theo từng mốc thời gian trên status page.
Phản ứng từ cộng đồng
- Developer toàn cầu phàn nàn về workflow treo hàng giờ.
- Các team DevOps phải trì hoãn lịch build và release.
- Cộng đồng đánh giá cao sự minh bạch của GitHub trong quá trình khắc phục.
- Nhiều tổ chức rút ra nhu cầu có self-hosted runner dự phòng.
DevOps VietNam facts: Sự cố tại hạ tầng CI/CD lớn không thể tránh khỏi, nhưng cách tổ chức khôi phục mới quyết định độ tin cậy. GitHub cho thấy khả năng khoanh vùng nhanh, mở rộng hạ tầng và xử lý backlog là nền tảng để giữ cho chuỗi phát triển phần mềm không bị đứt gãy.







