SmolVLM-256M-Instruct

紹介

SmolVLM-256Mは世界で最小のマルチモーダルモデルです。画像とテキストの任意のシーケンス入力を受け取り、テキスト出力を生成することができます。効率性を重視した設計が特徴で、画像に関する質問への回答、視覚コンテンツの説明、テキストの文字起こしなどを実行可能です。軽量なアーキテクチャにより、マルチモーダルタスクで高い性能を維持しながらもデバイス上でのアプリケーションに適しています。 1GB 未満の GPU メモリで 1 枚の画像に対する推論を実行できます。

使用可能な NPU モデル

基礎モデル

smolvlm-256M-ax630c

128 の長さのコンテキストウィンドウを提供する
最大出力 1,024 トークン
サポートプラットフォーム：LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
最初の推論時間（ttft）：185.75 ミリ秒
平均生成速度：30.16 トークン / 秒
画像エンコードサイズ：512×512
画像エンコード時間：799.11 ミリ秒

インストール

apt install llm-model-smolvlm-256m-ax630c

llm-model-smolvlm-256m-ax630c のダウンロード

Next 概要

Page Tools

PDF

デバイスとクイックスタート

AI Pyramid

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

AI Pyramid Applications

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

紹介

使用可能な NPU モデル

基礎モデル

smolvlm-256M-ax630c

インストール

On This Page