pdf-icon

StackFlow AI プラットフォーム

アプリケーション

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

DeepSeek-R1-Distill-Qwen-1.5B

紹介

DeepSeek-R1-Distill-Qwen-1.5Bは、オープンソースモデルを基に微調整されたモデルで、DeepSeek-R1 により生成されたサンプルを使用して訓練されています。パラメータ数は 15 億で、主な特徴は以下の通りです。

  • タイプ:因果言語モデル
  • 訓練段階:事前学習及び事後学習
  • アーキテクチャ:RoPE、SwiGLU、RMSNorm、Attention QKV バイアス、結合された単語埋め込みを搭載した Transformer
  • パラメータ数:15.4 億(うち非埋め込みパラメータは 13.1 億)
  • レイヤー数:28
  • Attention ヘッド数(GQA):Q に 12、KV に 2
  • コンテキスト長:最大 131,072 トークン、生成最大 8,192 トークン

使用可能な NPU モデル

基礎モデル

deepseek-r1-1.5B-ax630c

基礎モデルは、128 トークンのコンテキストウィンドウと最大 1,024 トークンの出力を提供します。

サポートプラットフォーム:LLM630 コンピュートキット、モジュール LLM、モジュール LLM キット

  • 128 トークンのコンテキストウィンドウ
  • 最大 1,024 トークンの出力
  • ttft(初回トークン生成時間):1075.04ms
  • 平均トークン / 秒:3.57

インストール

apt install llm-model-deepseek-r1-1.5b-ax630c

ロングコンテキストモデル

deepseek-r1-1.5B-p256-ax630c

ロングコンテキストモデルは、基礎モデルと比較して拡張されたコンテキスト処理能力を備えており、256 トークンのコンテキストウィンドウと最大 1,024 トークンの出力をサポートします。

サポートプラットフォーム:LLM630 コンピュートキット、モジュール LLM、モジュール LLM キット

  • 256 トークンのコンテキストウィンドウ
  • 最大 1,024 トークンの出力
  • ttft(初回トークン生成時間):3056.86ms
  • 平均トークン / 秒:3.57

インストール

apt install llm-model-deepseek-r1-1.5b-p256-ax630c
On This Page