Qwen2.5-0.5B-Instruct

介绍

Qwen2.5-0.5B-Instruct 是 Qwen2.5 系列中的一款指令调优语言模型，参数量约为 5 亿。该模型的主要特点包括：

模型类型：因果语言模型（Causal Language Model）
训练阶段：预训练和后训练
架构：Transformer，采用 RoPE、SwiGLU、RMSNorm、Attention QKV 偏置及绑定词嵌入
参数数量：4.9 亿（非嵌入参数 3.6 亿）
层数：24 层
注意力头数（GQA）：查询头 14，键值头 2
上下文长度：支持完整 32,768 个 token，上限生成 8,192 个 token

该模型在指令理解、长文本生成以及结构化数据理解方面有显著提升，支持包括英语、中文、法语等 29 种语言的多语言能力。

可用的 NPU 模型

基础模型

qwen2.5-0.5B-prefill-20e

支持 128 长度上下文窗口
最长输出 1024 个 token
支持平台：LLM630 计算套件、Module LLM 和 Module LLM 套件
ttft（首次生成时间）：359.8ms
平均生成速度：10.32 token/s

安装

apt install llm-model-qwen2.5-0.5b-prefill-20e

下载 llm-model-qwen2.5-0.5B-prefill-20e

长上下文模型

qwen2.5-0.5B-p256-ax630c

相较基础模型，支持更长上下文窗口
256 长度上下文窗口
最长输出 1024 个 token
支持平台：LLM630 计算套件、Module LLM 和 Module LLM 套件
ttft：1126.19ms
平均生成速度：10.30 token/s

安装

apt install llm-model-qwen2.5-0.5b-p256-ax630c

下载 llm-model-qwen2.5-0.5b-p256-ax630c

INT4 量化模型

qwen2.5-0.5B-Int4-ax630c

相较基础模型，推理速度更快
支持 128 长度上下文窗口
最长输出 1024 个 token
支持平台：LLM630 计算套件、Module LLM 和 Module LLM 套件
ttft：442.95ms
平均生成速度：12.52 token/s

安装

apt install llm-model-qwen2.5-0.5b-int4-ax630c

下载 llm-model-qwen2.5-0.5b-int4-ax630c

Next 目录索引

设备开发 & 快速上手

Module LLM

LLM630 Compute Kit

模型介绍

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

应用案例

Audio 音频处理

CV 视觉应用

VLM 多模态

LLM 大语言模型

语音助手

OpenAI API

介绍

可用的 NPU 模型

基础模型

qwen2.5-0.5B-prefill-20e

安装

长上下文模型

qwen2.5-0.5B-p256-ax630c

安装

INT4 量化模型

qwen2.5-0.5B-Int4-ax630c

安装

On This Page