Ngày 28 tháng 2 năm 2018, GitHub, nền tảng code lớn nhất thế giới, trở thành mục tiêu của cuộc tấn công DDoS lớn nhất từng được ghi nhận ở thời điểm đó. Lưu lượng tấn công lên tới 1,35 terabit mỗi giây, gấp nhiều lần khả năng chịu tải của hạ tầng thông thường. Thế nhưng, toàn bộ sự cố chỉ kéo dài khoảng 20 phút trước khi GitHub khôi phục dịch vụ.

Chuyện gì đã xảy ra?
Cuộc tấn công sử dụng kỹ thuật Memcached amplification. Các máy chủ Memcached mở public bị khai thác để phản hồi lại lưu lượng cực lớn tới địa chỉ của GitHub. Lưu lượng này đạt đỉnh 126,9 triệu packet mỗi giây, khiến GitHub gần như tê liệt.
Timeline sự cố
- 28/02/2018 – 17:21 UTC: Cuộc tấn công bắt đầu, GitHub ghi nhận lưu lượng inbound tăng đột biến.
- 17:25 UTC: Lưu lượng đạt đỉnh 1,35 Tbps, dịch vụ GitHub gián đoạn.
- 17:26 UTC: GitHub kích hoạt quy trình khẩn cấp, chuyển toàn bộ traffic qua Akamai Prolexic để lọc.
- 17:36 UTC: Lưu lượng được hấp thụ và vô hiệu hóa. GitHub trở lại trạng thái ổn định.
- Tổng thời gian gián đoạn: ~20 phút.
Ảnh hưởng
- Một số kết nối tới GitHub.com bị gián đoạn trong khoảng 10–20 phút.
- Không có dữ liệu người dùng nào bị mất.
- Sau khi Akamai Prolexic xử lý lưu lượng, toàn bộ dịch vụ GitHub hoạt động bình thường trở lại.
Cách tổ chức khắc phục sự cố
- Kích hoạt mitigation ngay lập tức: GitHub nhanh chóng reroute traffic sang Akamai Prolexic, dịch vụ chống DDoS toàn cầu.
- Tự động hóa xử lý: Hệ thống detection của GitHub phát hiện bất thường chỉ trong vài phút, cho phép trigger mitigation gần như tức thì.
- Hợp tác với bên thứ ba: Akamai Prolexic có hạ tầng đủ lớn để hấp thụ lưu lượng vượt ngưỡng 1 Tbps, đảm bảo khách hàng GitHub được bảo vệ.
- Minh bạch thông tin: Sau sự cố, GitHub công bố postmortem giải thích nguyên nhân và nhấn mạnh tầm quan trọng của bảo mật Memcached.
Phản ứng từ cộng đồng
- Các chuyên gia bảo mật gọi đây là “cú đánh DDoS lớn nhất lịch sử” tại thời điểm đó.
- Nhiều bình luận ca ngợi khả năng khắc phục nhanh chóng của GitHub khi một nền tảng quy mô toàn cầu chỉ gián đoạn chưa tới nửa giờ.
- Sự kiện này cũng khiến ngành công nghệ tăng tốc trong việc vá lỗ hổng Memcached và áp dụng best practice để tránh amplification attack.
DevOps VietNam facts: Một quy trình ứng phó nhanh, hợp tác với hạ tầng chống DDoS bên ngoài và tự động hóa detection có thể là giải pháp khắc phục dịch vụ hiệu quả.