Ngày 29 tháng 1 năm 2019, Slack, nền tảng nhắn tin doanh nghiệp phổ biến nhất thế giới, gặp sự cố nghiêm trọng khiến hàng triệu người dùng không thể gửi hoặc nhận tin nhắn. Outage kéo dài hơn 3 giờ, gây gián đoạn cho vô số công ty đang sử dụng Slack làm kênh giao tiếp chính.

Chuyện gì đã xảy ra?
Nguyên nhân xuất phát từ lỗi trong quá trình scaling database cluster. Khi số lượng kết nối tăng đột biến, cụm database của Slack không thể xử lý kịp, dẫn đến backlog trong việc xử lý event và làm gián đoạn toàn bộ dịch vụ nhắn tin.
Timeline sự cố
- 29/01/2019 – 07:00 PST: Slack bắt đầu ghi nhận sự cố kết nối. Người dùng báo không thể gửi tin nhắn.
- 07:15 PST: Slack xác định nguyên nhân từ database cluster chịu tải bất thường.
- 08:30 PST: Đội ngũ kỹ sư thực hiện scale-out khẩn cấp, nhưng một số node không đồng bộ khiến dịch vụ tiếp tục bị gián đoạn.
- 09:45 PST: Triển khai rollback cấu hình, ổn định cluster.
- 10:15 PST: Slack khôi phục dần dịch vụ cho khách hàng toàn cầu.
- 10:45 PST: Slack xác nhận toàn bộ hệ thống đã trở lại bình thường.
Ảnh hưởng
- Hàng triệu doanh nghiệp toàn cầu bị gián đoạn liên lạc trong hơn 3 giờ.
- Các nhóm phụ thuộc Slack cho họp trực tuyến, điều phối support hoặc deploy CI/CD bị ảnh hưởng nặng.
- Sự cố gây tiếng vang lớn vì Slack được xem là “xương sống” giao tiếp của nhiều công ty công nghệ.
Cách tổ chức khắc phục sự cố
- Điều tra nhanh: Slack nhanh chóng khoanh vùng sự cố về cụm database.
- Scale-out khẩn cấp: Triển khai thêm tài nguyên để giảm tải, song gặp khó khăn với đồng bộ cluster.
- Rollback cấu hình: Khôi phục lại trạng thái ổn định trước đó để đảm bảo tính toàn vẹn dữ liệu.
- Minh bạch thông tin: Slack cập nhật liên tục trên status page và công bố postmortem chi tiết, nhận lỗi vận hành và cam kết cải thiện.
- Cải tiến dài hạn: Slack bổ sung thêm cơ chế auto-scaling và tăng cường giám sát cụm database để tránh tái diễn.
Phản ứng từ cộng đồng
- Người dùng Twitter lập tức tạo hashtag “#SlackDown” lan truyền toàn cầu.
- Một số công ty chuyển tạm sang email và Zoom trong vài giờ, cho thấy mức độ phụ thuộc nặng nề vào Slack.
- Cộng đồng kỹ thuật ghi nhận Slack đã phản ứng minh bạch, nhưng sự cố là lời cảnh báo về giới hạn scale-out của các nền tảng SaaS.
DevOps VietNam facts: Outage của Slack 2019 chứng minh, database cluster luôn là điểm nghẽn khi scale nhanh. Hãy thiết kế hệ thống nhắn tin hay giao tiếp với giả định rằng peak traffic có thể gấp nhiều lần bình thường và luôn có rollback plan khi scaling thất bại.