pdf-icon

StackFlow AI プラットフォーム

SmolVLM-256M-Instruct

紹介

SmolVLM-256Mは世界で最小のマルチモーダルモデルです。画像とテキストの任意のシーケンス入力を受け取り、テキスト出力を生成することができます。 効率性を重視した設計が特徴で、画像に関する質問への回答、視覚コンテンツの説明、テキストの文字起こしなどを実行可能です。 軽量なアーキテクチャにより、マルチモーダルタスクで高い性能を維持しながらもデバイス上でのアプリケーションに適しています。 1GB 未満の GPU メモリで 1 枚の画像に対する推論を実行できます。

使用可能な NPU モデル

基礎モデル

smolvlm-256M-ax630c

  • 128 の長さのコンテキストウィンドウを提供する
  • 最大出力 1,024 トークン
  • サポートプラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • 最初の推論時間(ttft):185.75 ミリ秒
  • 平均生成速度:30.16 トークン / 秒
  • 画像エンコードサイズ:512×512
  • 画像エンコード時間:799.11 ミリ秒

インストール

apt install llm-model-smolvlm-256m-ax630c
On This Page