Dược sĩ Tiến vừa công bố dự án Chat DST với những thông số “khủng” về mô hình, phần cứng và hiệu năng, hứa hẹn vượt trội so với ChatGPT. Tuy nhiên, khi đi vào phân tích thực tế, nhiều điểm trong công bố này chưa đủ thuyết phục.

1. Những tuyên bố “chấn động”
Tại buổi họp báo ngày 14/07/2025, Dược sĩ Tiến tuyên bố về một loạt thông số “khủng” dành cho Chat DST, chatbot mang nhân cách của chính anh:
- Dựa trên mô hình Llama với 403 tỷ tham số
- Chạy trên 12 GPU Nvidia A100 80GB, tổng VRAM 960 GB
- Ngữ cảnh lên đến 1 triệu token
- Tốc độ xử lý: 2000 token/giây
- Độ ổn định đạt 99,95%
- Tự phát triển 6 mô hình khác nhau để kết hợp
- Phí dịch vụ: từ 20 đến 300 USD/tháng
Nhìn qua thì đây có vẻ là một bước tiến công nghệ ấn tượng. Tuy nhiên, dưới góc nhìn thực tế và kỹ thuật đặc biệt từ một DevOps hoặc chuyên gia AI các con số này đặt ra rất nhiều câu hỏi về tính khả thi.
2. Llama 403B liệu Có thật không?
Meta AI hiện tại không có mô hình Llama 403B, và mô hình lớn nhất chính thức của họ là Llama 3 với 405B.
Vấn đề: Nếu Llama 403B tồn tại, đây sẽ là phiên bản đặc biệt nào đó (tính khả thi rất thấp) và là tài sản trị giá hàng chục triệu USD để huấn luyện và bảo trì điều này là một thách thức với một nhóm cá nhân ở Việt Nam, nếu không có backing tài chính siêu lớn (ở cấp độ unicorn hoặc nhà nước).
3. 12x A100 = 960GB VRAM liệu có đủ?
Một số phép tính cơ bản:
- Mô hình 70B như Llama 3, ở cấu hình fp16, cần khoảng 140–180 GB VRAM để inference.
- Mô hình 403B ở fp16 sẽ cần khoảng 800–1000 GB VRAM để chỉ chạy inference, chưa kể context size lớn hay multi-client.
Với 960 GB VRAM từ 12x A100, về lý thuyết có thể chạy được một phiên bản LLM cực lớn, nhưng:
- Chạy song song (parallelism) cần tối ưu cực cao: sử dụng DeepSpeed, Megatron-LM hoặc FSDP.
- Không phù hợp để xử lý nhiều người dùng cùng lúc.
- Inference thời gian thực sẽ chậm nếu không nén model hoặc sử dụng kỹ thuật quantization.
Kết luận: Hạ tầng như công bố chỉ vừa đủ chạy một mô hình cỡ lớn ở chế độ thử nghiệm hoặc demo, không thể coi là vượt trội hơn OpenAI vốn sử dụng hàng chục ngàn GPU A100/H100 trên các siêu máy chủ chuyên dụng.
4. Tốc độ xử lý 2000 token/giây là Phi thực tế
Các mô hình hàng đầu như GPT-4 Turbo hiện xử lý trung bình 100–500 token/giây tùy loại truy vấn và hạ tầng. Một mô hình 400B tham số mà đạt 2000 token/giây:
- Hoặc là được nén quá mức (quantize 4-bit/8-bit) dẫn đến mất chất lượng lớn.
- Hoặc là không thể duy trì ổn định lâu dài cho nhiều người dùng.
Nghi vấn: Không có bằng chứng thực tế, benchmark hay demo độc lập chứng minh tốc độ này là thật.
5. Context 1 triệu token chỉ là tuyên bố?
Đến giữa 2025, OpenAI và Anthropic mới bắt đầu triển khai context lên tới 1 triệu token, nhưng đi kèm là:
- Mô hình được huấn luyện riêng cho context dài (ex: Claude 3 Opus).
- Chi phí vận hành cực cao và latency lớn.
Nếu Chat DST tuyên bố hỗ trợ 1 triệu token:
- Là một đột phá lớn về kiến trúc (ex: RMT, FlashAttention 2, Position Interpolation).
- Nhưng lại không hề đi kèm tài liệu kỹ thuật, whitepaper hoặc công bố benchmark.
Kết luận: Đây có thể là tuyên bố mang tính “PR hơn là thực tế”.
6. Ứng dụng có thực tế không?
- Tư vấn da/mỹ phẩm: Nếu chỉ dừng ở level phân tích thành phần, kiến thức, cảnh báo chất cấm, thì GPT-4 hiện đã làm được rất tốt.
- Hướng nghiệp tuổi 20–30: Mô hình AI chưa đủ tốt để thay thế chuyên gia thực sự, trừ khi dữ liệu huấn luyện rất phong phú và được fine-tune từ dữ liệu thật.
- R&D mỹ phẩm: Nếu Chat DST có thể đề xuất kết hợp hoạt chất điều này cần mô hình hóa hóa học (ex: SMILES + GNN) rất ít khả năng một mô hình LLM thông thường đảm nhiệm được.
Nếu tích hợp AI vào hệ thống tư vấn nội bộ của spa, thẩm mỹ viện thì có thể là giải pháp có giá trị ứng dụng. Tuy nhiên, để làm được điều đó cần nhiều hơn là một chatbot “mang nhân cách” của một người nổi tiếng.
7. Tổng hợp rủi ro và nhận định
Vấn đề | Độ khả thi | Ghi chú |
---|---|---|
Llama 403B | Không có xác thực | Meta chưa công bố |
960GB VRAM cho 403B | Cực hạn chế | Chỉ chạy thử được |
Tốc độ 2000 token/s | Phi thực tế | Gấp 10–20 lần GPT-4 |
Context 1 triệu token | Chưa kiểm chứng | Có thể chỉ là PR |
Ứng dụng chuyên ngành | Tương đối hợp lý | Nếu kết nối dữ liệu nội bộ tốt |
Độ tin cậy vận hành | Không có log hệ thống | Không có benchmark, giám sát độc lập |
Kết luận
Chat DST là một dự án có tiềm năng truyền thông cao, tận dụng cá nhân thương hiệu của Dược sĩ Tiến để xây dựng một AI “nhân cách hóa”. Tuy nhiên, phần lớn các thông số kỹ thuật được công bố hiện nay không có bằng chứng kỹ thuật độc lập, và trong một số trường hợp, mang dấu hiệu cường điệu hóa.
Nếu mục tiêu là tạo ra một công cụ trợ lý cá nhân hóa dành riêng cho ngành mỹ phẩm thì Chat DST nên bắt đầu bằng MVP tập trung vào một nhóm tính năng cốt lõi, hơn là tuyên bố vượt mặt các đại gia như OpenAI hay Meta.