紹介
DeepSeek-R1-Distill-Qwen-1.5Bは、オープンソースモデルを基に微調整されたモデルで、DeepSeek-R1 により生成されたサンプルを使用して訓練されています。パラメータ数は 15 億で、主な特徴は以下の通りです。
- タイプ:因果言語モデル
- 訓練段階:事前学習及び事後学習
- アーキテクチャ:RoPE、SwiGLU、RMSNorm、Attention QKV バイアス、結合された単語埋め込みを搭載した Transformer
- パラメータ数:15.4 億(うち非埋め込みパラメータは 13.1 億)
- レイヤー数:28
- Attention ヘッド数(GQA):Q に 12、KV に 2
- コンテキスト長:最大 131,072 トークン、生成最大 8,192 トークン
使用可能な NPU モデル
基礎モデル
deepseek-r1-1.5B-ax630c
基礎モデルは、128 トークンのコンテキストウィンドウと最大 1,024 トークンの出力を提供します。
サポートプラットフォーム:LLM630 コンピュートキット、モジュール LLM、モジュール LLM キット
- 128 トークンのコンテキストウィンドウ
- 最大 1,024 トークンの出力
- ttft(初回トークン生成時間):1075.04ms
- 平均トークン / 秒:3.57
インストール
apt install llm-model-deepseek-r1-1.5b-ax630c
ロングコンテキストモデル
deepseek-r1-1.5B-p256-ax630c
ロングコンテキストモデルは、基礎モデルと比較して拡張されたコンテキスト処理能力を備えており、256 トークンのコンテキストウィンドウと最大 1,024 トークンの出力をサポートします。
サポートプラットフォーム:LLM630 コンピュートキット、モジュール LLM、モジュール LLM キット
- 256 トークンのコンテキストウィンドウ
- 最大 1,024 トークンの出力
- ttft(初回トークン生成時間):3056.86ms
- 平均トークン / 秒:3.57
インストール
apt install llm-model-deepseek-r1-1.5b-p256-ax630c