Tranh cãi đã diễn ra
Các mô hình AI hàng đầu từ OpenAI, Google, Meta hay Anthropic… về cơ bản tự học từ đầu với lượng dữ liệu thô khổng lồ, quá trình thường mất nhiều tháng và tiêu tốn hàng chục triệu USD trở lên.
Tuy nhiên, khi một công ty khác ra đời sau và sử dụng kết quả đã có từ các AI đi đầu này, quá trình này được các nhà khoa học máy tính gọi là chưng cất, có thể giúp tạo ra một mô hình tốt trong vài tuần, thậm chí vài ngày với chi phí ít hơn đáng kể.
Trợ lý AI DeepSeek ra đời vào ngày 20-1, được hàng triệu người trên thế giới tải xuống từ các kho ứng dụng và hơn nữa, nó được chú ý vì chi phí phát triển cực thấp nếu so với OpenAI, Google, Meta hay Anthropic… và vài ngày sau đó, thông tin từ công ty OpenAI nghi ngờ DeepSeek chưng cất.
Kỹ thuật chưng cất được các nhà phát triển sử dụng để đạt hiệu suất tốt hơn trên các mô hình nhỏ, bằng cách sử dụng đầu ra từ những mô hình lớn, cho phép họ có được kết quả tương tự trong các nhiệm vụ cụ thể với chi phí thấp hơn.
Mọi thứ đang còn tranh cãi và hiện DeepSeek cho kết quả sử dụng tốt đến đâu, sẽ được ứng dụng rộng rãi nhờ mã nguồn mở hay không vẫn là câu chuyện dài phía trước. Một nhóm nghiên cứu quốc tế đã chỉ ra chatbot AI DeepSeek chỉ đạt 17% độ chính xác trong việc cung cấp thông tin, xếp thứ 10/11 khi so sánh với ChatGPT của OpenAI hay Gemini của Google… khi đã áp dụng 300 câu hỏi thử nghiệm giống trên các chatbot.
Từ nghiên cứu trên cũng chỉ ra rằng, chatbot này đã lặp lại các thông tin sai lệch 30% số lần, đồng thời đưa ra câu trả lời mơ hồ hoặc không hữu ích 53% số lần khi phản hồi các câu hỏi liên quan đến tin tức, dẫn đến tỉ lệ thất bại lên tới 83%.
"Không như mong đợi"
Ứng dụng DeepSeek mang đến những tính năng thú vị, tuy nhiên, vẫn có một số hạn chế nhất định, như ứng dụng này không hỗ trợ giọng nói hoặc khả năng tạo hình ảnh ngay lập tức như ChatGPT. Đôi khi, tốc độ phản hồi cũng không ổn định. Một số người dùng chỉ ra DeepSeek chỉ được đào tạo dựa trên dữ liệu đến tháng 7-2024. Vì vậy, nếu người dùng muốn tìm kiếm thông tin cập nhật mới nhất phải sử dụng công cụ tìm kiếm thay vì dựa vào mô hình AI này. Qua các kiểm chứng khác, nhiều hình ảnh hay thông tin đã bị DeepSeek “thay đổi”, cho ra kết quả không như thực tế.
Hoài nghi về… giá rẻ và vấn đề dữ liệu
Hiện DeepSeek sở hữu hai mô hình AI chính: V3 và R1. V3 áp dụng kiến trúc MOE, tối ưu hiệu suất bằng cách kết hợp nhiều mô hình nhỏ hơn. Nó có 671 tỷ tham số nhưng chỉ kích hoạt 37 tỷ tham số cùng lúc, giúp giảm tài nguyên tính toán. Đào tạo V3 cần 2.048 GPU Nvidia H800 trong hai tháng, tương đương 5,5 triệu giờ GPU.
Trong khi đó, R1 dựa trên nền tảng V3, sử dụng học tăng cường (RL) để cải thiện khả năng suy luận. Dù có thể cạnh tranh với AI của OpenAI trong một số tác vụ, nhưng quá trình phát triển R1 đòi hỏi nguồn lực lớn hơn nhiều so với những gì DeepSeek công bố. Với công bố AI DeepSeek ngang tầm OpenAI với chi phí chỉ 5 triệu USD nên DeepSeek đang bị các công ty chuyên về AI khác hoài nghi về vấn đề… giá rẻ như đã công bố.
Cũng cần lưu ý, DeepSeek thu thập nhiều loại dữ liệu từ người dùng, bao gồm nội dung trò chuyện, thông tin thiết bị và cả “mô hình gõ phím” và dữ liệu này được cho là sẽ lưu trữ trên các máy chủ đặt tại Trung Quốc.
Hiện trên thế giới, DeepSeek đối mặt làn sóng phản ứng quốc tế, gỡ khỏi cửa hàng ứng dụng. Các thông tin quốc tế cho thấy, Cơ quan Bảo vệ Dữ liệu cá nhân Ý (GPDP) cho rằng, điều này gây rủi ro cao đối với dữ liệu của hàng triệu người tại quốc gia này. GPDP giải thích là hàng triệu người dùng Ý có thể bị thu thập dữ liệu cá nhân từ DeepSeek và không rõ nó được sử dụng cho mục đích gì. Hiện DeepSeek đã bị gỡ khỏi cửa hàng ứng dụng Google Play và App Store tại Ý… Còn ở Ireland, Ủy ban bảo vệ dữ liệu (DPC) cũng đã bày tỏ lo ngại về vấn đề dữ liệu của người dùng.
Qwen 2-5 của Alibaba không gây nên sự chú ý
Giới công nghệ AI cũng chú ý đến việc Tập đoàn Alibaba của Trung Quốc tung ra Qwen 2-5 trong dịp Tết Nguyên đán vừa rồi và tuyên bố mô hình vượt trội so với DeepSeek V3. "Qwen 2.5-Max vượt trội... hầu hết mô hình khác như GPT-4o, DeepSeek-V3 và Llama-3.1-405B", bộ phận phát triển điện toán đám mây của Alibaba ra thông báo. Alibaba cho biết mô hình hiện được tích hợp trong Qwen Chat và người dùng có thể trò chuyện trực tiếp hoặc tương tác với các vật thể, tìm kiếm thông tin... Tuy nhiên nhìn chung, hiệu ứng của Qwen 2-5 không như mong đợi vì “mọi ánh mắt” đang dồn về DeepSeek.