pdf-icon

StackFlow AI プラットフォーム

Qwen2.5-1.5B-Instruct

紹介

Qwen2.5-1.5B-Instructは Qwen2.5 シリーズの中の 1 つの指令微調整言語モデルで、パラメータ数は約 15.4 億です。このモデルの主な特徴は以下の通りです:

  • Type:因果言語モデル
  • Training Stage:事前学習と事後学習
  • Architecture:RoPE、SwiGLU、RMSNorm、Attention QKV バイアス、および結合された単語埋め込みを備えたトランスフォーマー
  • パラメータ数:15.4 億 (13.1 億非埋め込み)
  • 層数:28
  • Attention ヘッド数(GQA):Q には 12、KV には 2
  • コンテキスト長:最大 32,768 トークン、生成は最大 8,192 トークンまで

このモデルは、指示の遵守、長文の生成、構造化データの理解において大幅な改善を示しています。英語、中国語、フランス語など 29 言語に対応した多言語機能をサポートしています。

使用可能な NPU モデル

基礎モデル

qwen2.5-1.5B-ax630c

  • 128 の長さのコンテキストウィンドウをサポート
  • 最大出力 1024 トークン
  • サポートプラットフォーム:LLM630 コンピューティングキット、Module LLM および Module LLM キット
  • ttft(初回生成時間):1029.41ms
  • 平均生成速度:3.59 トークン / 秒

インストール

apt install llm-model-qwen2.5-1.5b-ax630c

Long-Context Model

qwen2.5-1.5B-p256-ax630c

  • 基本モデルと比較して、より長いコンテキストウィンドウをサポート
  • 256 の長さのコンテキストウィンドウ
  • 最大出力 1024 トークン
  • サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • ttft:3056.54ms
  • 平均生成速度:3.57 トークン / 秒

インストール

apt install llm-model-qwen2.5-1.5b-p256-ax630c

INT4 Quantized Model

qwen2.5-1.5B-Int4-ax630c

基礎モデルと比較して、推論速度が速い

  • 128 の長さのコンテキストウィンドウをサポート
  • 最大 1024 トークンまでの出力をサポート
  • サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • ttft:1219.54ms
  • 平均生成速度:4.63 トークン / 秒

インストール

apt install llm-model-qwen2.5-1.5b-int4-ax630c
On This Page