DeepSeek V3:強大高效的大型語言模型
DeepSeek V3 是一款尖端的 Mixture-of-Experts (MoE) 語言模型,擁有 6710 億個參數,旨在於各類任務中達到高性能與高效率。

多頭隱藏注意力(MLA)與 DeepSeekMoE
使用 MLA 與 DeepSeekMoE 架構提升效率和性能。
高效訓練
採用 FP8 混合精度訓練及算法-架構-硬體協同設計,實現跨節點 MoE 高效訓練,同時運用多標記預測。
穩定的訓練過程
訓練過程穩定,耗時 2.788M 小時 H800 GPU。
大型上下文窗口
支援 128K 的上下文窗口,能夠處理並理解大量文本輸入。
高性能
在數學、程式設計、推理及多語言任務的基準測試中,超越其他開源模型,並與頂尖閉源模型(如 GPT-4o 和 Claude-3.5-Sonnet)競爭。
多元功能
能夠進行程式碼產生與修改、網路搜尋、複雜問題解決、翻譯及論文寫作。
靈活部署
支援使用 NVIDIA GPU、AMD GPU 及 Huawei Ascend NPU 部署,並提供如 SGLang、LMDeploy、TensorRT-LLM 及 vLLM 等多種框架選項,支援 FP8 和 BF16 推論。

程式碼產生與修改
根據自然語言描述協助開發者生成及修改程式碼。
網路搜尋
整合網路搜尋功能,提供最新資訊與背景。
複雜問題解決
解決各領域複雜的推理與問題。
翻譯與論文寫作
提供高品質翻譯,協助撰寫論文及其他長篇內容。

體驗 DeepSeek V3 的功能
