Kubernetes backup và restore

Chiến Lược Phục Hồi Hệ Thống Sau Thảm Họa

Sau một thời gian cũng khá dài làm DevOps, tôi đã chứng kiến không ít thảm họa: từ server sập do lỗi cấu hình, mất dữ liệu vì ransomware, đến downtime kéo dài vì không có kế hoạch dự phòng. Một trong những ký ức đáng nhớ nhất là vụ việc năm 2018, khi một công ty thương mại điện tử mà tôi làm việc bị tấn công DDoS kết hợp lỗi ứng dụng (Giờ thì chắc đã quá quen thuộc với mọi người rồi), khiến hệ thống ngừng hoạt động 6 giờ – Rút ổ điện :))). Từ đó, tôi học cách xây dựng chiến lược phục hồi hệ thống sau thảm họa (Disaster Recovery – DR) với các công cụ như Kubernetes, backup tự động, và failover.

Thảm Họa Trong DevOps: Thực Tế Khắc Nghiệt

Thảm họa không báo trước: một bản cập nhật sai làm crash cụm, một lỗi mạng khiến data center mất kết nối, hoặc một lỗ hổng bảo mật bị khai thác. Theo nghiên cứu từ Uptime Institute 2024, 70% doanh nghiệp gặp sự cố nghiêm trọng ít nhất một lần/năm, với chi phí trung bình 1,5 triệu USD/sự cố (Nghe to nhưng bên Tây thì thật). Tôi hiểu rằng không phải tránh thảm họa mà là chuẩn bị để phục hồi nhanh nhất có thể.

Chiến Lược Phục Hồi Hệ Thống Sau Thảm Họa

Bước 1: Xây Dựng Backup Chiến Lược Với Velero

Velero là công cụ backup và restore cho Kubernetes, cứu tôi trong nhiều tình huống. Cấu hình như sau:

Cài đặt Velero:

curl -L https://github.com/vmware-tanzu/velero/releases/download/v1.11.0/velero-v1.11.0-linux-amd64.tar.gz | tar -xz
sudo mv velero-v1.11.0-linux-amd64/velero /usr/local/bin/

Cấu hình backup đến S3 (VD: AWS S3):

velero install --provider aws --bucket my-backup-bucket --secret-file ./credentials-velero --use-volume-snapshots=false

Lên lịch backup tự động:
```
velero schedule create daily-backup --schedule "0 0 * * *" --include-cluster-resources
```
- Backup toàn bộ cụm Kubernetes mỗi ngày lúc 00:00.

Bước 2: Thiết Lập Failover Với Multi-Region Kubernetes

Tôi đã học được tầm quan trọng của multi-region sau vụ mất toàn bộ data center năm 2019. Cấu hình:

Sử dụng GKE Multi-Cluster Service (MCS) hoặc AWS EKS với multi-region:
- Tạo cụm chính và cụm dự phòng trên vùng khác (VD: us-west-1 và us-east-1).
Cấu hình DNS failover với Route 53:
- Sử dụng health check để chuyển traffic sang cụm dự phòng khi cụm chính gặp sự cố.
Đồng bộ dữ liệu:
- Sử dụng Velero để restore nhanh hoặc mirror dữ liệu qua replication.

Bước 3: Thực Hành DR Drills Và Tự Động Hóa

DR Drills: Tôi tổ chức tập luyện khôi phục mỗi quý, mô phỏng thảm họa (VD: tắt cụm chính). Lần đầu, mất 4 giờ để phục hồi; sau 5 lần, giảm xuống còn 30 phút.
Tự Động Hóa: Dùng Ansible hoặc Terraform để tái tạo hạ tầng:
```
ansible-playbook -i inventory.yml deploy.yml
```
- Đảm bảo mọi thứ (config, pod, service) được tái tạo tự động.

Bước 4: Giám Sát Và Phản Ứng Nhanh Với ELK Stack

Tích hợp ELK Stack để theo dõi log và metric.
Cấu hình cảnh báo với Elastic Watcher khi CPU > 90% hoặc log lỗi tăng đột biến.
Tôi từng phát hiện sớm một sự cố ransomware nhờ dashboard ELK.

Bảng So Sánh Các Phương Pháp Phục Hồi Hệ Thống

Phương Pháp	Mô Tả	Thời Gian Phục Hồi	Ưu Điểm	Nhược Điểm
Velero Backup	Backup và restore cụm K8s	15-60 phút	Nhanh, chi tiết	Phụ thuộc lưu trữ
Multi-Region	Failover giữa vùng	1-5 phút	Tối ưu uptime	Tốn chi phí
Manual Restore	Khôi phục thủ công	2-6 giờ	Không cần công cụ	Rủi ro lỗi con người
Immutable Infra	Tái tạo hạ tầng mới	30-90 phút	Độc lập, an toàn	Cần thiết kế trước

Bài Học Đắt Giá

Lỗi Quên Backup: Một dự án cũ, tôi bỏ qua backup Velero, dẫn đến mất 1 ngày dữ liệu khi server crash. Từ đó, tôi luôn kiểm tra backup hàng tuần.
Failover Chậm: Lần đầu dùng multi-region, DNS chuyển chậm 10 phút do health check sai. Tôi học cách tối ưu latency và test liên tục.
Phản Ứng Quá Muộn: Một sự cố bảo mật kéo dài 12 giờ vì không có cảnh báo tự động. ELK Stack đã thay đổi cách tôi giám sát.