Qwen2.5-0.5B-Instruct

紹介

Qwen2.5-0.5B-Instruct は Qwen2.5 シリーズの一員で、5 億パラメータを備えた命令調整済み言語モデルです。このモデルの主な特徴は以下の通りです。

タイプ：因果言語モデル
学習段階：事前学習及び事後学習
アーキテクチャ：RoPE、SwiGLU、RMSNorm、アテンション QKV バイアス、および結合された単語埋め込みを搭載した Transformer
パラメータ数：4.9 億（埋め込みパラメータ以外の 3.6 億）
レイヤー数：24
アテンションヘッド数（GQA）：Q が 14、KV が 2
コンテキスト長：最大 32,768 トークンで、生成は最大 8,192 トークン

このモデルは、命令の追従性、長文の生成、構造化データの理解において大幅な改善を示しています。英語、中国語、フランス語などを含む 29 言語に対応する多言語機能を備えています。

使用可能な NPU モデル

基礎モデル

qwen2.5-0.5B-prefill-20e

128 の長さのコンテキストウィンドウをサポート
最大出力 1024 トークン
サポートプラットフォーム：LLM630 コンピューティングキット、Module LLM および Module LLM キット
ttft（最初の生成時間）：359.8ms
平均生成速度：10.32 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-prefill-20e

llm-model-qwen2.5-0.5B-prefill-20e のダウンロード

ロングコンテキストモデル

qwen2.5-0.5B-p256-ax630c

基礎モデルと比較して、より長いコンテキストウィンドウをサポート
256 長さのコンテキストウィンドウ
最大出力 1024 トークン
サポートプラットフォーム：LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
ttft：1126.19ms
平均生成速度：10.30 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-p256-ax630c

llm-model-qwen2.5-0.5b-p256-ax630c のダウンロード

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

基礎モデルに比べ、推論速度が速い
128 の長さのコンテキストウィンドウをサポート
最大 1024 個のトークンを出力
サポートプラットフォーム：LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
ttft：442.95ms
平均生成速度：12.52 トークン / 秒

インストール

apt install llm-model-qwen2.5-0.5b-int4-ax630c

llm-model-qwen2.5-0.5b-int4-ax630c のダウンロード

Next 概要

デバイスとクイックスタート

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

紹介

使用可能な NPU モデル

基礎モデル

qwen2.5-0.5B-prefill-20e

インストール

ロングコンテキストモデル

qwen2.5-0.5B-p256-ax630c

インストール

INT4 量子化モデル

qwen2.5-0.5B-Int4-ax630c

インストール

On This Page