Fact: LinkedIn outage 2021 khiến hơn 700 triệu người dùng không thể truy cập trong nhiều giờ

Ngày 23 tháng 2 năm 2021, LinkedIn mạng xã hội dành cho công việc chuyên nghiệp lớn nhất thế giới gặp sự cố downtime toàn cầu hiếm hoi. Trong hơn 2 giờ, người dùng trên khắp thế giới không thể đăng nhập, tải newsfeed, kết nối mạng lưới hay gửi tin nhắn. Đây là một trong những outage lớn nhất trong lịch sử LinkedIn, ảnh hưởng trực tiếp tới hơn 700 triệu người dùng.

0a4aa73d-c99a-4639-b051-83e09db02abb

Chuyện gì đã xảy ra?

Nguyên nhân được LinkedIn xác nhận là do thay đổi cấu hình hệ thống nội bộ. Cụ thể, một config sai đã gây ra lỗi cascading trong nhiều service backend, dẫn tới gián đoạn trên diện rộng. Sự cố này không đến từ tấn công mạng hay hạ tầng vật lý, mà hoàn toàn từ thao tác vận hành nội bộ.

Timeline sự cố

  • 23/02/2021 – 19:00 UTC: Người dùng toàn cầu bắt đầu báo lỗi không thể truy cập LinkedIn.
  • 19:10 UTC: Kỹ sư LinkedIn xác định sự cố xuất phát từ thay đổi cấu hình backend.
  • 19:30 UTC: LinkedIn rollback cấu hình sai và bắt đầu khởi động lại một số service core.
  • 20:15 UTC: Một phần dịch vụ newsfeed và login khôi phục, nhưng nhắn tin vẫn gián đoạn.
  • 21:00 UTC: LinkedIn xác nhận phần lớn dịch vụ đã trở lại hoạt động bình thường.
  • 21:30 UTC: Toàn bộ hệ thống khôi phục hoàn toàn.

Ảnh hưởng

  • Hơn 700 triệu người dùng toàn cầu không thể truy cập hoặc tương tác trên LinkedIn trong hơn 2 giờ.
  • Các công ty và cá nhân phụ thuộc LinkedIn để tuyển dụng, networking, marketing bị gián đoạn.
  • Outage làm gián đoạn nhiều hoạt động kinh doanh, đặc biệt trong bối cảnh đại dịch khi networking trực tuyến trở thành kênh chính.

Cách tổ chức khắc phục sự cố

  • Rollback nhanh: LinkedIn ngay lập tức rollback cấu hình sai để ngăn lỗi tiếp tục lan rộng.
  • Khởi động lại từng lớp service: Hạ tầng backend được khởi động lại theo từng lớp để đảm bảo tính ổn định.
  • Minh bạch thông tin: LinkedIn công bố trên status page và gửi thông báo xác nhận nguyên nhân.
  • Cải tiến dài hạn: LinkedIn bổ sung quy trình kiểm soát thay đổi (change management) chặt chẽ hơn để ngăn lỗi tương tự.

Phản ứng từ cộng đồng

  • Người dùng nhanh chóng đưa hashtag “#LinkedInDown” lên top trending Twitter.
  • Nhiều chuyên gia DevOps coi đây là ví dụ điển hình cho việc một config sai có thể hạ gục cả dịch vụ toàn cầu.
  • Tuy nhiên, LinkedIn được đánh giá cao vì khôi phục nhanh chóng và công bố minh bạch.

DevOps VietNam facts: Outage LinkedIn 2021 cho thấy, chỉ một config sai cũng đủ để làm sập dịch vụ hàng trăm triệu người dùng. Trong vận hành hệ thống lớn, luôn cần cơ chế kiểm thử và rollback nhanh cho mọi thay đổi cấu hình.

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận