Trong nhiều năm, Netflix đã vận hành một hạ tầng database khổng lồ dựa trên mô hình self-managed, chạy trực tiếp các database engine như MySQL/PostgreSQL trên Amazon EC2. Tuy nhiên, khi quy mô dữ liệu bùng nổ, mô hình này bắt đầu bộc lộ những bottleneck nghiêm trọng về operational overhead và khả năng scaling.

Vì vậy, việc migrate sang Aurora PostgreSQL đã cải thiện đáng kể hạ tầng cơ sở dữ liệu của họ, đạt mức tăng hiệu suất lên tới 75% và tiết kiệm 28% chi phí trên các ứng dụng trọng yếu. Cụ thể, Spinnaker ghi nhận mức giảm độ trễ trung bình 50% (từ 67,57ms xuống còn 41,70ms), trong khi Policy Engine giảm độ trễ trung bình 75% (từ 26,72 mili-giây xuống còn 6,51 mili-giây).
Nỗi đau của mô hình Self-Managed trên EC2
Trước khi chuyển đổi, kiến trúc của Netflix phụ thuộc nặng nề vào việc tự quản lý các database instance trên EC2. Mặc dù mô hình này mang lại sự linh hoạt, nhưng nó đi kèm với gánh nặng quản trị khổng lồ.
Các kỹ sư của Netflix phải liên tục đối mặt với việc quản lý EBS volume. Mỗi khi một database instance chạm ngưỡng giới hạn về Disk IOPS hoặc dung lượng lưu trữ (Storage capacity), họ phải thực hiện các thao tác mở rộng thủ công hoặc re-sharding dữ liệu. Quá trình này không chỉ tốn thời gian mà còn tiềm ẩn rủi ro gây ra latency spike hoặc downtime cho hệ thống Production.
Hơn nữa, việc quản lý backup, patch management và cấu hình High Availability thủ công trên hàng nghìn node tạo ra một operational toil khổng lồ, rút cạn nguồn lực của đội ngũ Database Engineering.
Aurora giải bài toán I/O Bottleneck như thế nào?
Quyết định chuyển sang Amazon Aurora của Netflix không chỉ đơn thuần là việc thay đổi platform, mà là sự thay đổi về tư duy kiến trúc. Yếu tố cốt lõi giúp Netflix đạt được mức tăng hiệu suất 75% nằm ở kiến trúc storage độc đáo của Aurora.
Khác với database truyền thống chạy trên EC2 (nơi compute gắn liền với storage), Aurora tách biệt hoàn toàn hai lớp này. Dữ liệu được lưu trữ trên một distributed storage volume ảo hóa, tự động replicate qua 3 Availability Zones.
Điều này giải quyết triệt để vấn đề Write Amplification mà Netflix gặp phải trước đây. Thay vì phải ghi toàn bộ data page xuống disk, Aurora chỉ cần đẩy các redo log record xuống tầng storage. Cơ chế này giảm đáng kể tải I/O trên network và disk, cho phép database xử lý throughput cao hơn nhiều với cùng một cấu hình phần cứng.
Ngoài ra, khả năng tự động scaling storage của Aurora (lên tới 128 TiB) đã loại bỏ hoàn toàn gánh nặng quản lý capacity planning. Các kỹ sư Netflix không còn phải thức đêm để mở rộng EBS volume khi ổ cứng bị đầy nữa.
Chiến lược Migration và Consolidation
Để đạt được consolidation, Netflix không chỉ đơn giản là lift-and-shift. Họ đã tận dụng sức mạnh của Aurora để gộp nhiều database instance nhỏ, rời rạc trên EC2 thành các Aurora Cluster lớn hơn và mạnh mẽ hơn.
Quá trình migration được thực hiện thông qua cơ chế replication liên tục. Netflix thiết lập các Aurora Read Replica đóng vai trò là đích đến. Dữ liệu từ hệ thống cũ được đồng bộ real-time sang Aurora. Khi replication lag về gần bằng 0, họ thực hiện cutover traffic.
Nhờ vào tính năng Global Database của Aurora, Netflix cũng cải thiện đáng kể khả năng Disaster Recovery (DR). Dữ liệu được replicate sang các Region khác với latency cực thấp (thường dưới 1 giây), đảm bảo business continuity ngay cả khi xảy ra sự cố cấp Region.
Kết Quả Performance tăng vọt, Cost giảm sâu, Latency xuống thấp
Ammar Khaku, Kỹ sư Phần mềm Cấp cao (Staff Software Engineer) thuộc nhóm Netflix Online Data Stores, cho biết:
“Chúng tôi không còn phải xây dựng và triển khai các bản binary tùy chỉnh trên EC2 với những bản vá nội bộ liên quan đến bảo mật và thu thập số liệu. Việc chuyển sang sử dụng Aurora PostgreSQL được quản lý sẵn cho phép chúng tôi tập trung vào logic nghiệp vụ và các mô hình truy cập dữ liệu.”
Kết quả của cuộc đại di cư này là một bước tiến rất đáng để học hỏi. Theo bài viết kỹ thuật từ AWS, Netflix đã ghi nhận hiệu suất tăng tới 75% trên các workload quan trọng sau khi chuyển sang Aurora. Cải thiện này đến từ việc tối ưu hóa bộ đệm (Buffer Cache) và giảm độ trễ I/O.
Bên cạnh performance, việc chuyển sang managed service giúp Netflix giảm đáng kể Total Cost of Ownership (TCO). Họ tiết kiệm được chi phí nhân sự cho việc vận hành hạ tầng, đồng thời tận dụng cơ chế pay-as-you-go của cloud để tối ưu hóa chi phí compute.
Hành động này của Netflix khẳng định xu hướng tất yếu của các hệ thống enterprise hiện đại: Chuyển dịch từ việc tự quản lý hạ tầng sang sử dụng các dịch vụ Cloud Native để tập trung tối đa vào business logic và innovation.








