NPU ベンチマーク

ベンチマークは、ハードウェアプラットフォームにおけるネットワークモデルの実行速度を把握するための最良の方法です。以下のデータは Raspberry Pi 5 をホストとして実施したテスト結果であり、コミュニティでの参考値に過ぎず、商用納品時の最終性能を示すものではありません。

試験条件

更新日時：2024.11.22
ツールチェーンバージョン：Pulsar2 3.2-patch2
テストツール：axcl_run_model
バッチサイズ：1 または 8
単位：IPS（Image/Second）

ホストによって memcopy や PCIe 性能に差があるため、axcl_run_model では Device 上でのネットワークモデル推論時間のみを計測しています。

ビジョンモデル

モデル	入力サイズ	バッチ 1 (IPS)	バッチ 8 (IPS)
Inceptionv1	224	1073	2494
Inceptionv3	224	478	702
MobileNetv1	224	1508	4854
MobileNetv2	224	1366	5073
ResNet18	224	1066	2254
ResNet50	224	576	1045
SqueezeNet11	224	1560	5961
Swin-T	224	342	507
ViT-B/16	224	162	207
YOLOv5s	640	326	394
YOLOv6s	640	282	322
YOLOv8s	640	248	279
YOLOv9s	640	237
YOLOv10s	640	298
YOLOv11n	640	860
YOLOv11s	640	305
YOLOv11m	640	114
YOLOv11l	640	87
YOLOv11x	640	41

オーディオモデル

モデル	RTF
Whisper-Tiny	0.03
Whisper-Small	0.18
MeloTTS	0.04

LLM（大規模言語モデル）

モデル	プロンプト長（トークン）	TTFT（ms）	生成速度（tokens/s)
Qwen2.5-0.5B	128	188	28
Qwen2.5-1.5B	128	407.75	9.05
Qwen2.5-1.5B-Int4	128	407.75	9.05

VLM（ビジョン言語モデル）

モデル	入力画像サイズ	画像エンコーダ（ms）	プロンプト長（トークン）	TTFT（ms）	生成速度（tokens/s)
InternVL2-1B	448*448	4200	320	425	29

On This Page