紹介
Qwen2.5-1.5B-Instructは Qwen2.5 シリーズの中の 1 つの指令微調整言語モデルで、パラメータ数は約 15.4 億です。このモデルの主な特徴は以下の通りです:
- Type:因果言語モデル
- Training Stage:事前学習と事後学習
- Architecture:RoPE、SwiGLU、RMSNorm、Attention QKV バイアス、および結合された単語埋め込みを備えたトランスフォーマー
- パラメータ数:15.4 億 (13.1 億非埋め込み)
- 層数:28
- Attention ヘッド数(GQA):Q には 12、KV には 2
- コンテキスト長:最大 32,768 トークン、生成は最大 8,192 トークンまで
このモデルは、指示の遵守、長文の生成、構造化データの理解において大幅な改善を示しています。英語、中国語、フランス語など 29 言語に対応した多言語機能をサポートしています。
使用可能な NPU モデル
基礎モデル
qwen2.5-1.5B-ax630c
- 128 の長さのコンテキストウィンドウをサポート
- 最大出力 1024 トークン
- サポートプラットフォーム:LLM630 コンピューティングキット、Module LLM および Module LLM キット
- ttft(初回生成時間):1029.41ms
- 平均生成速度:3.59 トークン / 秒
インストール
apt install llm-model-qwen2.5-1.5b-ax630c
Long-Context Model
qwen2.5-1.5B-p256-ax630c
- 基本モデルと比較して、より長いコンテキストウィンドウをサポート
- 256 の長さのコンテキストウィンドウ
- 最大出力 1024 トークン
- サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
- ttft:3056.54ms
- 平均生成速度:3.57 トークン / 秒
インストール
apt install llm-model-qwen2.5-1.5b-p256-ax630c
INT4 Quantized Model
qwen2.5-1.5B-Int4-ax630c
基礎モデルと比較して、推論速度が速い
- 128 の長さのコンテキストウィンドウをサポート
- 最大 1024 トークンまでの出力をサポート
- サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
- ttft:1219.54ms
- 平均生成速度:4.63 トークン / 秒
インストール
apt install llm-model-qwen2.5-1.5b-int4-ax630c