pdf-icon

StackFlow AI プラットフォーム

Qwen2.5-0.5B-Instruct

紹介

Qwen2.5-0.5B-Instruct は Qwen2.5 シリーズの一員で、5 億パラメータを備えた命令調整済み言語モデルです。このモデルの主な特徴は以下の通りです。

  • タイプ:因果言語モデル
  • 学習段階:事前学習及び事後学習
  • アーキテクチャ:RoPE、SwiGLU、RMSNorm、アテンション QKV バイアス、および結合された単語埋め込みを搭載した Transformer
  • パラメータ数:4.9 億(埋め込みパラメータ以外の 3.6 億)
  • レイヤー数:24
  • アテンションヘッド数(GQA):Q が 14、KV が 2
  • コンテキスト長:最大 32,768 トークンで、生成は最大 8,192 トークン

このモデルは、命令の追従性、長文の生成、構造化データの理解において大幅な改善を示しています。英語、中国語、フランス語などを含む 29 言語に対応する多言語機能を備えています。

使用可能な NPU モデル

基礎モデル

qwen2.5-0.5B-prefill-20e

  • 128 の長さのコンテキストウィンドウをサポート
  • 最大出力 1024 トークン
  • サポートプラットフォーム:LLM630 コンピューティングキット、Module LLM および Module LLM キット
  • ttft(最初の生成時間):359.8ms
  • 平均生成速度:10.32 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-prefill-20e

ロングコンテキストモデル

qwen2.5-0.5B-p256-ax630c

  • 基礎モデルと比較して、より長いコンテキストウィンドウをサポート
  • 256 長さのコンテキストウィンドウ
  • 最大出力 1024 トークン
  • サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • ttft:1126.19ms
  • 平均生成速度:10.30 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-p256-ax630c

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

  • 基礎モデルに比べ、推論速度が速い
  • 128 の長さのコンテキストウィンドウをサポート
  • 最大 1024 個のトークンを出力
  • サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • ttft:442.95ms
  • 平均生成速度:12.52 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax630c
On This Page