Cloudflare vừa chính thức công bố open beta cho Cloudflare Data Platform, một giải pháp data platform được quản lý hoàn toàn. Nền tảng này cho phép ingest, lưu trữ và truy vấn dữ liệu phân tích quy mô lớn, dựa trên các tiêu chuẩn mở như Apache Iceberg và cam kết không tính phí egress data truyền thống.

Nền tảng mới này là sự kết hợp của ba dịch vụ: Cloudflare Pipelines, R2 Data Catalog, và R2 SQL. Theo Cloudflare, R2 Data Catalog được giới thiệu beta đầu năm là một catalog Apache Iceberg được quản lý, xây dựng trên R2, có nhiệm vụ theo dõi metadata và thực hiện bảo trì như compaction để tăng tốc độ truy vấn.
Cloudflare Pipelines chịu trách nhiệm thu thập sự kiện từ Workers hoặc HTTP, xử lý chúng bằng SQL, và lưu trữ vào bảng Iceberg hoặc file trên R2. Cuối cùng, R2 SQL là một query engine serverless phân tán, được thiết kế cho các tập dữ liệu quy mô petabyte lưu trữ trên R2.
Micah Wylde, Principal Engineer tại Cloudflare, lưu ý rằng Pipelines hiện chỉ hỗ trợ các stateless transformations hữu ích cho việc chuẩn hóa schema hoặc che giấu dữ liệu nhạy cảm. Cloudflare có kế hoạch tận dụng công nghệ stateful processing từ Arroyo, công ty mà Wylde đồng sáng lập để sớm hỗ trợ các tác vụ phức tạp hơn như aggregations, materialized views và joins.
Jamie Lord, Solution Architect tại CDS UK, nhấn mạnh một trong những lợi thế chính của nền tảng mới là chính sách no egress fees đặc trưng của Cloudflare khi truy cập dữ liệu. Cloudflare cũng tuyên bố các tính năng tích hợp với Logpush, user-defined functions (UDFs) thông qua Workers, cũng như hỗ trợ aggregations và joins trong R2 SQL sẽ được ra mắt vào nửa đầu năm 2026.
Một tài liệu tutorial đã có sẵn để người dùng bắt đầu xây dựng hệ thống phân tích dữ liệu end-to-end. Trong thời gian open beta, các thành phần chính là Pipelines, R2 Data Catalog, R2 SQL sẽ không bị tính phí, tuy nhiên người dùng vẫn phải trả phí lưu trữ R2 và phí operations phát sinh từ các truy vấn theo mức giá tiêu chuẩn.








