Alibaba ra mắt mô hình tạo video mã nguồn mở mới nhất

Mô hình tạo video mới hỗ trợ tạo video từ khung đầu và khung cuối

Alibaba vừa ra mắt Wan2.1-FLF2V-14B, một mô hình tạo video mã nguồn mở mới nhất, cho phép người dùng nhập khung hình bắt đầu và kết thúc để đơn giản hóa quá trình tạo video. Tính năng này mang lại quyền kiểm soát sáng tạo cao hơn cho các nhà sáng tạo video ngắn, đồng thời hỗ trợ họ phát triển các mô hình và ứng dụng AI của riêng mình một cách hiệu quả và tiết kiệm.

Mô hình này là một phần trong loạt Wan2.1, thuộc dòng mô hình nền tảng của Alibaba, được thiết kế chuyên biệt để tạo ra hình ảnh và video chất lượng cao từ văn bản và hình ảnh. Hiện tại, mô hình đã được mã nguồn mở trên Hugging Face, GitHubModelScope – cộng đồng mã nguồn mở của Alibaba Cloud.

Wan2.1-FLF2V-14B cho thấy khả năng vượt trội trong việc thực thi chính xác hướng dẫn từ người dùng, duy trì sự nhất quán giữa khung hình đầu tiên và toàn bộ video, cũng như tạo ra các chuyển động mượt mà từ khung đầu đến khung cuối, giúp mô phỏng các chuyển động phức tạp một cách chân thực và tự nhiên. Người dùng có thể tạo video dài 5 giây ở độ phân giải 720p miễn phí thông qua website chính thức của Wan.

Công nghệ cốt lõi đứng sau mô hình này là cơ chế điều chỉnh kiểm soát bổ sung, sử dụng khung hình đầu và cuối do người dùng cung cấp làm điều kiện đầu vào. Cách tiếp cận này giúp đảm bảo quá trình chuyển đổi giữa các khung diễn ra mượt mà, chính xác.

Để đảm bảo tính ổn định hình ảnh, mô hình còn tích hợp các đặc trưng ngữ nghĩa từ khung đầu và cuối vào quá trình tạo video, từ đó duy trì sự nhất quán về phong cách, nội dung và cấu trúc, đồng thời linh hoạt biến đổi khung hình theo thời gian.

Là một trong những công ty công nghệ lớn đầu tiên trên thế giới mã nguồn mở các mô hình AI quy mô lớn do chính mình phát triển, Alibaba Cloud đã công bố mã nguồn mở 4 mô hình Wan2.1 vào tháng 2 năm 2025. Tính đến nay, các mô hình này đã thu hút hơn 2,2 triệu lượt tải trên Hugging Face và ModelScope.

Loạt mô hình Wan2.1, ra mắt đầu năm 2025, cũng là dòng mô hình tạo video đầu tiên hỗ trợ hiệu ứng văn bản bằng cả tiếng Trung và tiếng Anh. Wan2.1 hiện đứng đầu bảng xếp hạng VBench, bộ đánh giá toàn diện dành cho các mô hình tạo video.

Alibaba Cloud cũng đã phát hành mô hình ngôn ngữ lớn (LLM) mã nguồn mở đầu tiên của mình, Qwen-7B, vào tháng 8 năm 2023. Các mô hình Qwen liên tục đứng đầu bảng xếp hạng Hugging Face Open LLM Leaderboards, với hiệu suất sánh ngang với các mô hình AI hàng đầu thế giới.

Trong những năm gần đây, Alibaba Cloud đã mã nguồn mở hơn 200 mô hình AI tạo sinh, với hơn 100.000 mô hình dẫn xuất dựa trên dòng Qwen được phát triển trên Hugging Face, biến Qwen trở thành một trong những họ mô hình AI nổi bật nhất hiện nay.

e9857151-41d4-4d6e-a024-7a2c9fe6efb1

Prompt: “Phong cách thực tế. Một người phụ nữ mặc đồ thể thao màu hồng chạy qua một con phố trong thành phố. Máy quay ban đầu phóng to vào khuôn mặt cô ấy, sau đó ghi lại cảnh cô rẽ vào một góc và tiếp tục chạy về phía trước, cho thấy phía sau lưng cô khi cô di chuyển dọc theo con đường.”

Theo: alibabacloud

Chia sẻ bài viết:
Theo dõi
Thông báo của
0 Góp ý
Được bỏ phiếu nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận

Có thể bạn quan tâm