NPU ベンチマーク
ベンチマークは、ハードウェアプラットフォームにおけるネットワークモデルの実行速度を把握するための最良の方法です。以下のデータは Raspberry Pi 5 をホストとして実施したテスト結果であり、コミュニティでの参考値に過ぎず、商用納品時の最終性能を示すものではありません。
試験条件
- 更新日時:2024.11.22
- ツールチェーンバージョン:Pulsar2 3.2-patch2
- テストツール:axcl_run_model
- バッチサイズ:1 または 8
- 単位:IPS(Image/Second)
ホストによって memcopy や PCIe 性能に差があるため、axcl_run_model では Device 上でのネットワークモデル推論時間のみを計測しています。
ビジョンモデル
モデル | 入力サイズ | バッチ 1 (IPS) | バッチ 8 (IPS) |
---|
Inceptionv1 | 224 | 1073 | 2494 |
Inceptionv3 | 224 | 478 | 702 |
MobileNetv1 | 224 | 1508 | 4854 |
MobileNetv2 | 224 | 1366 | 5073 |
ResNet18 | 224 | 1066 | 2254 |
ResNet50 | 224 | 576 | 1045 |
SqueezeNet11 | 224 | 1560 | 5961 |
Swin-T | 224 | 342 | 507 |
ViT-B/16 | 224 | 162 | 207 |
YOLOv5s | 640 | 326 | 394 |
YOLOv6s | 640 | 282 | 322 |
YOLOv8s | 640 | 248 | 279 |
YOLOv9s | 640 | 237 | |
YOLOv10s | 640 | 298 | |
YOLOv11n | 640 | 860 | |
YOLOv11s | 640 | 305 | |
YOLOv11m | 640 | 114 | |
YOLOv11l | 640 | 87 | |
YOLOv11x | 640 | 41 | |
オーディオモデル
モデル | RTF |
---|
Whisper-Tiny | 0.03 |
Whisper-Small | 0.18 |
MeloTTS | 0.04 |
LLM(大規模言語モデル)
モデル | プロンプト長(トークン) | TTFT(ms) | 生成速度(tokens/s) |
---|
Qwen2.5-0.5B | 128 | 188 | 28 |
Qwen2.5-1.5B | 128 | 407.75 | 9.05 |
Qwen2.5-1.5B-Int4 | 128 | 407.75 | 9.05 |
VLM(ビジョン言語モデル)
モデル | 入力画像サイズ | 画像エンコーダ(ms) | プロンプト長(トークン) | TTFT(ms) | 生成速度(tokens/s) |
---|
InternVL2-1B | 448*448 | 4200 | 320 | 425 | 29 |