Từ một phòng thí nghiệm nghiên cứu AI do quỹ đầu tư tư nhân hỗ trợ ít được biết đến ở Trung Quốc, DeepSeek trở thành cái tên được chú ý trên toàn cầu và gây chấn động khắp thung lũng Silicon.
DeepSeek dường như vượt qua những công ty như OpenAI, Google và Meta trong cuộc chạy đua AI đầy rủi ro. Mô hình lý luận mã nguồn mở mới mà phòng thí nghiệm này công bố, DeepSeek R1, được cho là vượt trội hơn các mô hình AI hàng đầu hiện tại về các nhiệm vụ toán học và lý luận.
DeepSeek có trên web và App Store của Apple.
Ngày 27/1, trợ lý AI của phòng thí nghiệm Trung Quốc đã vượt qua ChatGPT để trở thành ứng dụng miễn phí được đánh giá cao nhất trên App Store tại Mỹ.
Các mô hình AI của DeepSeek không chỉ khiến các gã khổng lồ AI phương Tây lo ngại mà còn làm xuất hiện nhận định rằng Mỹ có thể phải vật lộn để duy trì vị thế thống trị về AI của mình trong cuộc "chiến tranh lạnh" công nghệ đang leo thang với Trung Quốc.
Theo báo cáo của Reuters, thành công của DeepSeek làm lung lay niềm tin rộng rãi rằng việc đổ hàng tỷ USD đầu tư vào chip sẽ đảm bảo vị thế dẫn đầu, khiến cổ phiếu công nghệ trượt dốc.
Người sáng lập DeepSeek - Liang Wenfeng.
Khởi đầu và chuyển hướng
Năm 2013, doanh nhân Trung Quốc Liang Wenfeng thành lập quỹ đầu tư High-Flyer. Để phân tích dữ liệu tài chính và hỗ trợ các hoạt động phức tạp cho quỹ, High-Flyer thành lập một nhánh nghiên cứu học sâu có tên Fire-Flyer và tích trữ các Đơn vị xử lý đồ họa (GPU) để chế tạo siêu máy tính.
Năm 2023, Liang quyết định chuyển hướng nguồn lực của quỹ vào một công ty mới có tên DeepSeek với mục tiêu phát triển các mô hình AI cơ bản và cuối cùng là giải mã trí tuệ nhân tạo tổng quát (AGI).
Thay vì thuê các kỹ sư giàu kinh nghiệm, biết cách xây dựng sản phẩm AI hướng đến người tiêu dùng, Liang tuyển dụng nghiên cứu sinh tiến sỹ từ các trường đại học hàng đầu của Trung Quốc để tham gia nhóm nghiên cứu.
Cách tiếp cận của Liang trong việc xây dựng nhóm tập trung nghiên cứu được cho là đã góp phần vào thành công của DeepSeek. "Toàn bộ nhóm có cùng văn hóa hợp tác và cống hiến cho nghiên cứu chuyên sâu", Zihan Wang, cựu nhân viên của DeepSeek, nói trên MIT Technology Review.
DeepSeek khác biệt thế nào?
Mặc dù đạt được những cột mốc quan trọng trong khoảng thời gian ngắn, DeepSeek được cho là chỉ tập trung nghiên cứu AI và không có kế hoạch thương mại hóa các mô hình AI ngay lập tức.
"Tôi chưa tìm ra lý do thương mại (để thành lập DeepSeek) ngay cả khi bạn hỏi. Nghiên cứu khoa học cơ bản có tỷ lệ hoàn vốn đầu tư rất thấp. Khi các nhà đầu tư ban đầu của OpenAI rót tiền, họ chắc chắn không nghĩ đến số tiền sẽ nhận được. Thay vào đó, họ thực sự muốn làm điều này", Liang nói với 36Kr.
DeepSeek không dựa vào nguồn tài trợ từ những gã khổng lồ công nghệ như Baidu, Alibaba và ByteDance. Công ty chỉ được High-Flyer hỗ trợ. Theo báo cáo của Forbes, công ty có quan hệ đối tác với nhà sản xuất chip AMD. AMD cung cấp năng lượng cho các mô hình như DeepSeek-V3 bằng GPU AMD Instinct và phần mềm ROCM.
DeepSeek cũng là một trong những công ty AI hàng đầu Trung Quốc áp dụng nguyên tắc mã nguồn mở.
Mặc dù định nghĩa nguồn mở vẫn còn gây tranh cãi, các mô hình AI nguồn mở được cung cấp để bất kỳ ai cũng có thể tải xuống, sửa đổi và sử dụng. Việc phát hành các mô hình AI và tập dữ liệu đào tạo theo giấy phép nguồn mở có thể thu hút nhiều người dùng và nhà phát triển hơn, giúp các mô hình phát triển tiên tiến hơn.
Các mô hình AI nguồn mở cũng đi kèm với một số rủi ro về an toàn vì có thể bị sử dụng sai mục đích.
Các mô hình của DeepSeek được cho là có khả năng cạnh tranh với ChatGPT của OpenAI.
DeepSeek phát hành những mô hình AI nào?
Những mô hình AI của DeepSeek được cho là đã tối ưu hóa bằng cách kết hợp các cơ chế và kỹ thuật học máy tiên tiến.
Hai trong số đó bao gồm cơ chế Hỗn hợp chuyên gia (Mixture of Experts - MoE) và Chú ý ngầm nhiều đầu (Multi-Head Latent Attention - MHA).
MoE là kỹ thuật mà nhiều mô hình chuyên biệt (chuyên gia) làm việc cùng nhau, với mạng lưới cổng chọn chuyên gia tốt nhất để giải quyết vấn đề cho mỗi đầu vào, giúp đào tạo các mô hình mạnh với chi phí hợp lý.
MHA đảm bảo suy luận hiệu quả thông qua việc nén đáng kể các đơn vị dữ liệu.
Một số mô hình AI nguồn mở do DeepSeek phát triển bao gồm: DeepSeek Coder (được thiết kế cho các tác vụ liên quan đến mã hóa), DeepSeek LLM (có 67 tỷ tham số để cạnh tranh với các mô hình ngôn ngữ lớn khác); DeepSeek-V2 (mô hình AI giá rẻ với hiệu suất mạnh mẽ), DeepSeek-Coder-V2 (mô hình AI có 236 tỷ tham số được thiết kế cho các thách thức mã hóa phức tạp), DeepSeek-V3 (mô hình AI có 671 tỷ tham số có thể xử lý nhiều tác vụ như mã hóa, dịch thuật, viết bài luận và email), DeepSeek-R1 (mô hình AI được thiết kế cho các tác vụ lý luận, với các khả năng thách thức mô hình o1 marquee của OpenAI), DeepSeek-R1-Distill (mô hình AI đã được tinh chỉnh dựa trên dữ liệu tổng hợp do DeepSeek R1 tạo ra).
Tương lai của DeepSeek
Kể từ năm 2022, Mỹ công bố các biện pháp kiểm soát xuất khẩu, hạn chế sự tiếp cận của các công ty AI Trung Quốc với các GPU như H100 của Nvidia. Mặc dù DeepSeek có kho dự trữ 10.000 GPU H100 nhưng công ty cần nhiều chip hơn để mở rộng quy mô các mô hình AI của mình.
Nguồn lực hạn chế khiến DeepSeek phải sử dụng chúng hiệu quả hơn. Phòng nghiên cứu AI này đã làm lại quy trình để giảm bớt gánh nặng cho GPU, theo tiết lộ của Wang, cựu nhân viên của DeepSeek, với MIT Technology Review.
Mặc dù DeepSeek có thể phát triển và triển khai các mô hình AI mạnh mẽ mà không cần tiếp cận các phần cứng mới nhất, công ty vẫn sẽ cần thu hẹp khoảng cách tính toán tại một thời điểm nào đó để mở rộng quy mô các mô hình AI và cạnh tranh hiệu quả hơn với các công ty Mỹ với nguồn tài nguyên điện toán dồi dào.
Phương Anh
Theo: Indian Express
© 2025 | Tạp chí NƯỚC ĐỨC