Fact: Jira/Confluence outage 2 tuần nhưng không mất một dòng dữ liệu

Tháng 4 năm 2022, Atlassian gặp một trong những sự cố nghiêm trọng nhất trong lịch sử của họ. Một lỗi khi vận hành script đã vô tình xóa nhầm môi trường production của hơn 400 khách hàng sử dụng Jira và Confluence Cloud. Hậu quả: nhiều doanh nghiệp bị gián đoạn dịch vụ trong gần 2 tuần, nhưng cuối cùng Atlassian khôi phục toàn bộ dữ liệu mà không để mất một dòng nào.

a7ed7dd3-d6c0-4a33-a980-b06fa5fc64bf

Chuyện gì đã xảy ra?

Trong quá trình bảo trì định kỳ, Atlassian triển khai một script nhằm gỡ bỏ một dịch vụ không còn sử dụng. Tuy nhiên, lỗi trong logic script đã khiến nó xóa nhầm cả các tenant production. Kết quả là nhiều khách hàng lớn, bao gồm công ty phần mềm, startup và cả tổ chức chính phủ, mất quyền truy cập hoàn toàn vào Jira và Confluence.

Timeline sự cố

  • 04/04/2022: Script vận hành bị lỗi, xóa nhầm tenant của khoảng 400 khách hàng.
  • 05/04: Atlassian xác nhận sự cố, một số khách hàng bị downtime hoàn toàn.
  • 06–10/04: Atlassian bắt đầu quá trình khôi phục dữ liệu thủ công từ backup và snapshot.
  • 11–15/04: Một số khách hàng được khôi phục, nhưng nhiều tổ chức tiếp tục báo downtime kéo dài.
  • 18/04/2022: Atlassian thông báo tất cả tenant đã được khôi phục, không mất dữ liệu nào.

Ảnh hưởng

  • Khoảng 400 khách hàng Jira/Confluence Cloud bị ảnh hưởng, với downtime kéo dài từ vài ngày tới gần 2 tuần.
  • Nhiều công ty phụ thuộc Jira để quản lý issue và sprint, hoặc Confluence để lưu trữ tài liệu nội bộ, rơi vào trạng thái gián đoạn hoàn toàn.
  • Mặc dù downtime dài bất thường, Atlassian khẳng định không có dữ liệu nào bị mất.

Cách tổ chức khắc phục sự cố

  • Khôi phục thủ công: Atlassian phải khôi phục từng tenant dựa trên snapshot và backup, quy trình này mất nhiều ngày cho từng khách hàng.
  • Ưu tiên khách hàng lớn: Các tổ chức chịu ảnh hưởng nặng nhất được đưa vào danh sách khôi phục sớm.
  • Hỗ trợ trực tiếp: Atlassian lập nhóm chuyên trách để cập nhật liên tục tiến độ khôi phục cho từng khách hàng.
  • Cải tiến quy trình vận hành: Sau sự cố, Atlassian bổ sung kiểm soát trước khi chạy script xóa, đồng thời nâng cấp hệ thống bảo vệ để ngăn lỗi con người tác động trực tiếp vào production.
  • Minh bạch báo cáo: Công ty công bố postmortem chi tiết, thừa nhận sai sót và cam kết cải thiện khả năng phục hồi.

Phản ứng từ cộng đồng

  • Nhiều khách hàng tức giận vì downtime kéo dài bất thường, làm gián đoạn công việc nghiêm trọng.
  • Tuy nhiên, Atlassian cũng nhận được đánh giá tích cực khi khôi phục dữ liệu toàn vẹn cho toàn bộ khách hàng, không mất một dòng nào.
  • Sự cố trở thành case study lớn trong ngành về rủi ro của automation script và tầm quan trọng của kiểm soát thay đổi.

DevOps VietNam facts: Một script vận hành sai có thể khiến hàng trăm khách hàng sập dịch vụ trong nhiều ngày. Automation phải đi kèm guardrail và cơ chế kiểm duyệt, vì trong hạ tầng cloud, một dòng code sai có thể gây ảnh hưởng rất lớn.

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận