DeepSeek V3:強力で効率的な大規模言語モデル
DeepSeek V3は、6710億のパラメータを持つ最先端のMixture-of-Experts(MoE)言語モデルであり、様々なタスクにおいて高いパフォーマンスと効率性を実現するよう設計されています。

マルチヘッド潜在注意(MLA)とDeepSeekMoE
MLAとDeepSeekMoEのアーキテクチャを利用して、効率と性能を向上させます。
効率的なトレーニング
FP8混合精度トレーニングとアルゴリズム・フレームワーク・ハードウェアの共同設計により、効率的なクロスノードのMoEトレーニングを実現し、マルチトークン予測も使用しています。
安定したトレーニングプロセス
トレーニングプロセスは安定しており、2.788M H800 GPU時間を要しました。
大規模なコンテキストウィンドウ
128Kのコンテキストウィンドウをサポートし、膨大なテキスト入力の処理と理解を可能にします。
高いパフォーマンス
数学、プログラミング、論理、複数言語タスクにおける各種ベンチマークで他のオープンソースモデルを上回り、GPT-4oやClaude-3.5-Sonnetなどのトップクローズドソースモデルに匹敵します。
多用途な機能
コード生成や修正、ウェブ検索、複雑な問題解決、翻訳、エッセイ執筆が可能です。
柔軟な導入
NVIDIA GPU、AMD GPU、Huawei Ascend NPUを用いた導入に対応し、SGLang、LMDeploy、TensorRT-LLM、vLLMなど複数のフレームワークオプションを提供し、FP8およびBF16推論をサポートします。

コード生成と修正
自然言語の記述に基づいてコードを生成・修正し、開発者を支援します。
ウェブ検索
最新の情報と文脈を提供するために、ウェブ検索機能を統合しています。
複雑な問題解決
さまざまな分野の複雑な推論および問題解決タスクに対処します。
翻訳とエッセイ執筆
質の高い翻訳を実現し、エッセイやその他の長文作成を支援します。

DeepSeek V3の機能を体験する
