Tháng 5/2024, OpenAI ghi nhận mức tải truy cập cao nhất lịch sử: hơn 1,2 triệu request/s, gấp 3 lần thời điểm ra mắt GPT-4. Điều đáng kinh ngạc là hệ thống không hề sập, dù có lúc GPU utilization chạm 97%.
Nguyên nhân: hạ tầng inference của GPT-4 sử dụng autoscaler phân tán đa vùng địa lý, có khả năng điều phối workload giữa các trung tâm dữ liệu tại Mỹ, Châu Âu và Singapore.

Chuyện gì đã xảy ra?
OpenAI triển khai GPT-4 trên cụm GPU A100 và H100 qua nền tảng Azure AI Supercomputer. Thay vì autoscaling theo region, họ sử dụng global load orchestrator, cho phép dịch chuyển session inference sang cụm khác khi một vùng đạt ngưỡng 90% tài nguyên.
Khi lượng truy cập tăng đột biến, autoscaler tự động bật thêm hàng nghìn GPU trong các vùng “mát”, đồng thời giảm tải cụm đang nóng.
Timeline mở rộng
| Thời điểm (UTC) | Diễn biến chính |
|---|---|
| 12:00 | Tải inference tăng 180% sau một bản cập nhật lớn. |
| 12:03 | Autoscaler phát hiện GPU saturation > 90% tại west-us. |
| 12:05 | Orchestrator kích hoạt mở rộng cụm eu-central và sea-sg. |
| 12:08 | Hơn 2.000 GPU mới được thêm vào, latency giảm 60%. |
| 12:15 | Hệ thống ổn định, throughput duy trì 1,2M req/s. |
Thời gian phản ứng: chỉ 5 phút.
Cách tổ chức khắc phục và vận hành
- Global autoscaler: phân tích realtime GPU metrics từ Prometheus, quyết định mở rộng đa vùng.
- Orchestration-as-a-service: layer điều phối chạy riêng, tách biệt compute để tránh deadlock.
- Graceful scaling: session inference cũ vẫn giữ ổn định trong quá trình dịch chuyển vùng.
- Predictive scaling: ML model dự đoán nhu cầu 30 phút trước, kích hoạt tài nguyên dự phòng.
Phản ứng từ cộng đồng
- Giới kỹ sư AI đánh giá đây là một cột mốc vận hành mới, khi autoscaler được áp dụng ở cấp hạ tầng GPU, chứ không chỉ compute thông thường.
- Microsoft và NVIDIA cũng xác nhận học hỏi mô hình này cho các cụm inference tiếp theo.
DevOps VietNam facts: Sức mạnh thật của tự động hóa không nằm ở tốc độ mở rộng, mà ở khả năng dự đoán và phân phối thông minh trước khi hệ thống quá tải.







