Fact: LinkedIn xử lý 52 tỷ event/ngày nhờ hệ thống Kafka “chữa bệnh cho chính mình”

Ngày 23/7/2023, LinkedIn công bố đã đạt cột mốc 52 tỷ event/ngày trên nền tảng dữ liệu thời gian thực của họ, vận hành chủ yếu dựa trên Apache Kafka. Đằng sau con số khổng lồ ấy là một thách thức: Kafka broker thường xuyên gặp mất cân bằng partition, backlog hàng trăm GB, và overload trên consumer group.

Để giải quyết, LinkedIn phát triển Cruise Control hệ thống “chữa bệnh tự động” cho Kafka, có thể phát hiện broker bất thường, tái cân bằng, và di chuyển partition trong vài giây mà không cần con người can thiệp.

1237f438-08e4-4fdf-9862-b9838399b6a3

Chuyện gì đã xảy ra?

Trước năm 2020, LinkedIn thường xuyên gặp sự cố về load imbalance, nơi 5% broker xử lý 60% lưu lượng. Điều này khiến latency tăng, queue backlog kéo dài, và nguy cơ mất dữ liệu. Cruise Control ra đời như một lớp kiểm soát thông minh, liên tục đọc metric từ Kafka cluster, phát hiện sự lệch tải và tự động thực hiện rebalance có kiểm soát.

Timeline cải tiến

Thời điểm Diễn biến chính
2019 Khởi động dự án Cruise Control để giảm thao tác thủ công rebalance.
2020 Áp dụng cho toàn bộ Kafka production cluster.
2022 Tích hợp với JMX metrics để tự động phát hiện broker “nóng”.
2023 Cruise Control xử lý 52 tỷ event/ngày, đảm bảo latency trung bình < 200ms.

Cách tổ chức khắc phục vấn đề

  • Self-healing rebalance: Cruise Control tự di chuyển partition khỏi broker quá tải, giảm rủi ro sập cụm.
  • Anomaly detector: ML model phát hiện pattern hiệu suất bất thường dựa trên I/O và throughput.
  • Controlled leadership re-election: Broker leader được thay đổi dần dần, tránh mất quorum.
  • Transparency API: Mọi thay đổi đều ghi log để con người có thể giám sát, không “tự động mù”.

Phản ứng từ cộng đồng

  • Cruise Control sau đó được open source và nhanh chóng trở thành chuẩn vận hành Kafka cho nhiều công ty như Netflix, Uber và Pinterest.
  • Cộng đồng đánh giá đây là bước tiến quan trọng của LinkedIn trong việc đưa “observability + automation” thành một vòng khép kín.

DevOps VietNam facts: Tự động hóa thật sự không chỉ là triển khai nhanh hơn, mà là khi hệ thống tự phát hiện và tự chữa lỗi trước khi con người nhận ra.

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận