pdf-icon

StackFlow AI プラットフォーム

SmolVLM-500M-Instruct

紹介

SmolVLM-500M は、SmolVLM ファミリーに属する小型のマルチモーダルモデルです。画像とテキストの任意のシーケンスを入力として受け取り、テキスト出力を生成します。 このモデルは効率性を重視して設計されており、画像に関する質問に答えたり、視覚的な内容を記述したり、テキストを文字起こししたりすることができます。 軽量なアーキテクチャのため、マルチモーダルタスクで強力なパフォーマンスを維持しながらも、デバイス上でのアプリケーションに適しています。 1.23GB の GPU RAM で 1 枚の画像の推論を実行することが可能です。

使用可能な NPU モデル

基礎モデル

smolvlm-500M-ax630c

  • 128 の長さのコンテキストウィンドウを提供
  • 最大出力 1,024 トークン
  • 対応プラットフォーム:LLM630 計算ツールキット、Module LLM および Module LLM ツールキット
  • 初回推論時間(ttft):365.69 ミリ秒
  • 平均生成速度:13.14 トークン / 秒
  • 画像エンコードサイズ:512×512
  • 画像エンコード時間:838.30 ミリ秒

インストール

apt install llm-model-smolvlm-500m-ax630c
On This Page