紹介
Qwen2.5-0.5B-Instruct は Qwen2.5 シリーズの一員で、5 億パラメータを備えた命令調整済み言語モデルです。このモデルの主な特徴は以下の通りです。
- タイプ:因果言語モデル
- 学習段階:事前学習及び事後学習
- アーキテクチャ:RoPE、SwiGLU、RMSNorm、アテンション QKV バイアス、および結合された単語埋め込みを搭載した Transformer
- パラメータ数:4.9 億(埋め込みパラメータ以外の 3.6 億)
- レイヤー数:24
- アテンションヘッド数(GQA):Q が 14、KV が 2
- コンテキスト長:最大 32,768 トークンで、生成は最大 8,192 トークン
このモデルは、命令の追従性、長文の生成、構造化データの理解において大幅な改善を示しています。英語、中国語、フランス語などを含む 29 言語に対応する多言語機能を備えています。
使用可能な NPU モデル
基礎モデル
qwen2.5-0.5B-prefill-20e
- 128 の長さのコンテキストウィンドウをサポート
- 最大出力 1024 トークン
- サポートプラットフォーム:LLM630 コンピューティングキット、Module LLM および Module LLM キット
- ttft(最初の生成時間):359.8ms
- 平均生成速度:10.32 トークン / 秒
インストール
apt install llm-model-qwen2.5-0.5b-prefill-20e
ロングコンテキストモデル
qwen2.5-0.5B-p256-ax630c
- 基礎モデルと比較して、より長いコンテキストウィンドウをサポート
- 256 長さのコンテキストウィンドウ
- 最大出力 1024 トークン
- サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
- ttft:1126.19ms
- 平均生成速度:10.30 トークン / 秒
インストール
apt install llm-model-qwen2.5-0.5b-p256-ax630c
INT4 量子化モデル
qwen2.5-0.5B-Int4-ax630c
- 基礎モデルに比べ、推論速度が速い
- 128 の長さのコンテキストウィンドウをサポート
- 最大 1024 個のトークンを出力
- サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
- ttft:442.95ms
- 平均生成速度:12.52 トークン / 秒
インストール
apt install llm-model-qwen2.5-0.5b-int4-ax630c