Fact: Google Cloud bị gián đoạn dịch vụ AI trong 19 giờ

Dịch vụ Vertex AI Gemini API của Google Cloud đã bị gián đoạn trong 19 giờ liên tục vào tháng 11/2024. Sự cố này, mặc dù chỉ ảnh hưởng đến một API AI chuyên biệt, đã làm gián đoạn khả năng tích hợp mô hình ngôn ngữ lớn (LLM) của nhiều doanh nghiệp và ứng dụng phát triển, nhấn mạnh tính nhạy cảm của hạ tầng AI trong môi trường Production. (Nguồn: Báo cáo “How Long Do Cloud Outages Really Last?” từ Cherry Servers, phân tích sự cố Google Cloud tháng 11/2024)

6d65429c-0afd-4396-9b52-46a096796fe0

Chuyện gì đã xảy ra?

Vào tháng 11/2024, API Vertex Gemini trên Google Cloud Platform (GCP) bắt đầu gặp phải sự cố gián đoạn dịch vụ nghiêm trọng. Lỗi này khiến các ứng dụng và dịch vụ phụ thuộc vào API để truy cập mô hình Gemini không thể hoạt động được, dẫn đến lỗi và gián đoạn cho người dùng cuối. Đây không phải là sự cố làm sập toàn bộ khu vực hay mạng lưới GCP, mà là một lỗi nghiêm trọng xảy ra ở cấp độ dịch vụ AI chuyên biệt.

Timeline sự cố

PST_time (VN_time) mô tả
06:00 PST (21:00) Vertex AI Gemini API bắt đầu có dấu hiệu tăng độ trễ và tỷ lệ lỗi.
07:30 PST (22:30) Google xác nhận sự cố gián đoạn trên trang trạng thái dịch vụ và bắt đầu điều tra.
10:00 PST (01:00) Tình trạng dịch vụ được hạ cấp xuống “gián đoạn nghiêm trọng” do không thể truy cập API.
03:00 PST (18:00) Google thông báo đã xác định được nguyên nhân gốc rễ và đang triển khai bản vá.
06:30 PST (21:30) Dịch vụ được khôi phục hoàn toàn sau 19 giờ gián đoạn, tình trạng trở về “đang hoạt động”.

Ảnh hưởng

Sự cố kéo dài 19 giờ đã gây ra các tác động sau:

  • Gián đoạn chuỗi cung ứng ứng dụng: Các công ty sử dụng Vertex Gemini API để cung cấp tính năng AI (như tóm tắt, tạo nội dung, chatbot) cho người dùng cuối đã bị gián đoạn dịch vụ trong gần một ngày.
  • Thiệt hại tài chính và uy tín: Đối với các công ty có mô hình kinh doanh phụ thuộc vào khả năng truy cập AI liên tục, sự cố này gây ra tổn thất đáng kể và ảnh hưởng tiêu cực đến trải nghiệm khách hàng.
  • Hạn chế phát triển: Các nhóm phát triển đang xây dựng hoặc thử nghiệm ứng dụng dựa trên Gemini bị trì hoãn công việc.

Cách tổ chức khắc phục sự cố

Google Cloud đã thực hiện các bước sau để khắc phục sự cố:

  1. Cô lập vấn đề: Nhanh chóng xác định rằng lỗi chỉ xảy ra ở cấp độ dịch vụ API Gemini, không lan rộng sang các dịch vụ GCP cốt lõi khác như Compute Engine hay Storage.
  2. Phân tích nguyên nhân gốc rễ: Điều tra tập trung vào các thay đổi cấu hình gần nhất và cập nhật phần mềm liên quan đến API.
  3. Triển khai bản vá: Sau khi xác định được nguyên nhân, Google đã triển khai bản sửa lỗi (fix) cho môi trường production của API để khôi phục dịch vụ.
  4. Minh bạch hóa thông tin: Thường xuyên cập nhật trạng thái trên Google Cloud Service Health Dashboard, mặc dù tốc độ khôi phục dịch vụ còn chậm.

Phản ứng từ cộng đồng

  • Các nhà phát triển bày tỏ sự thất vọng về thời gian gián đoạn kéo dài, đặc biệt là đối với một dịch vụ quan trọng và mới như API AI.
  • Nhiều người dùng bắt đầu thảo luận về chiến lược đa đám mây (multi-cloud) để giảm thiểu rủi ro phụ thuộc vào một nhà cung cấp duy nhất cho các dịch vụ AI quan trọng.
  • Một số doanh nghiệp phải tạm thời chuyển sang các API AI thay thế (ví dụ: OpenAI hoặc các nhà cung cấp khác) để giữ cho các tính năng của họ tiếp tục hoạt động.

DevOps VietNam facts: Một sự cố kéo dài 19 giờ ở một dịch vụ AI chuyên biệt cho thấy việc đảm bảo độ sẵn sàng (HA) cho hạ tầng AI chuyên dụng vẫn là một thách thức lớn trong vận hành Cloud.

Thông tin nổi bật

Sự kiện phát trực tiếp​

Event Thumbnail

Báo cáo quan trọng

Article Thumbnail
Article Thumbnail
Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận

Tiêu điểm chuyên gia