Error rate là gì? Cách đọc Error rate trong hệ thống web

Error rate là tỉ lệ request bị lỗi trên tổng số request trong một khoảng thời gian.

Trong hệ thống web, Error rate thường được nhìn theo status code, đặc biệt là 5xx vì 5xx thường phản ánh server side issue hoặc dependency issue.

Ví dụ: Trong 5 phút, API nhận 100,000 request. Có 200 request trả 5xx.

Error rate 5xx trong window đó là 200 / 100,000 = 0.2%.

Error rate phản ánh mức user impact theo dạng failure, nhưng để đọc đúng bạn cần định nghĩa rõ thế nào là error và đo ở đâu.

Error rate cho biết điều gì?

Error rate giúp trả lời nhanh các câu hỏi cơ bản:

  • Service có đang trả lỗi nhiều hơn bình thường không?
  • Lỗi tập trung ở endpoint nào, status code nào, hoặc dependency nào?
  • Sau deploy hoặc thay đổi config, failure có tăng không?

Tuy nhiên, cần lưu ý: Error rate không luôn đồng nghĩa với outage. Một số lỗi có thể chỉ ảnh hưởng một phần traffic, hoặc chỉ ảnh hưởng một endpoint, hoặc bị che bởi retry.

Error rate khác Latency ra sao?

Error rate thường được đọc cùng các chỉ số sau:

  • Latency: request có thể không lỗi nhưng chậm, vẫn gây user impact.
  • RPS: traffic tăng có thể làm Error rate tăng do overload hoặc do dependency saturation.
  • Saturation signals: CPU, memory, DB connections, queue depth.

Một hệ thống có Error rate thấp chưa chắc healthy nếu Latency tăng mạnh, và một hệ thống có Error rate cao chưa chắc là do server bug nếu phần lớn là 4xx hợp lệ.

Cách hiểu Error rate

Một số nguyên tắc cơ bản khi đọc Error rate:

  • Luôn breakdown Error rate theo status code, ít nhất tách 4xx và 5xx.
  • Nên xem Error rate theo service và theo endpoint, không chỉ nhìn tổng.
  • Luôn đọc Error rate kèm RPS và Latency để tránh kết luận sai.

Ví dụ:

  • Error rate 5xx tăng và RPS tăng: có thể overload hoặc dependency issue.
  • Error rate 5xx tăng nhưng RPS ổn: có thể deploy regression hoặc config issue.
  • Error rate tăng chủ yếu do 4xx: có thể client misuse, auth issue, hoặc Rate limit policy thay đổi.
  • Error rate giảm đột ngột kèm RPS giảm: có thể outage hoặc routing issue làm traffic không tới được service.

Error rate thường được đo ở đâu?

Tuỳ mục tiêu observability, Error rate có thể được đo tại:

  • Load balancer / Ingress / API Gateway: phản ánh user facing errors và dễ audit theo traffic tổng.
  • Service level telemetry: giúp tách ownership và khoanh vùng lỗi theo service, theo endpoint và theo dependency.

Trong vận hành thực tế, nên chọn 1 đến 2 measurement point chính, định nghĩa rõ error theo status code hoặc theo error class, và giữ nhất quán.

Những yếu tố có thể làm Error rate bị lệch

Một số nguyên nhân khiến Error rate nhìn sai hoặc khó đọc:

  • Retry làm một lỗi ban đầu biến thành thành công, khiến Error rate ở edge thấp hơn nhưng load tăng.
  • Timeout có thể bị ghi nhận khác nhau ở client và server, dẫn tới mismatch giữa edge và service metrics.
  • Circuit breaker có thể trả lỗi nhanh ở upstream, làm Error rate tăng ở lớp trước trong khi downstream được bảo vệ.
  • Gộp nhiều endpoint vào một Error rate tổng làm bạn không thấy endpoint nào đang là nguyên nhân chính.
  • Không tách health check hoặc synthetic traffic làm Error rate bị lẫn với traffic không phải user.

Vì vậy, Error rate nên được breakdown theo endpoint, status code, traffic type, và nếu có thể thì theo dependency.

Error rate được dùng để làm gì trong DevOps?

Ở mức cơ bản, Error rate thường được dùng cho:

  • Phát hiện incident nhanh và paging khi user impact xảy ra.
  • Làm SLI để đặt SLO theo request success rate hoặc failure rate.
  • Theo dõi regression sau deploy và rollback nhanh khi cần.
  • Làm input cho postmortem để giảm recurring incident.

Kết luận

Error rate là chỉ số nền tảng để đo mức request bị lỗi trong một khoảng thời gian.
Để đọc đúng Error rate trong production, bạn cần định nghĩa rõ error là gì, breakdown theo status code và endpoint, đo nhất quán theo measurement point, và đọc kèm RPS, Latency và saturation signals để khoanh vùng nguyên nhân nhanh hơn.

Thông tin nổi bật

Sự kiện phát trực tiếp​

Event Thumbnail

Báo cáo quan trọng

Article Thumbnail
Article Thumbnail
Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận

Tiêu điểm chuyên gia