StackFlow AI プラットフォーム
SmolVLM-500M は、SmolVLM ファミリーに属する小型のマルチモーダルモデルです。画像とテキストの任意のシーケンスを入力として受け取り、テキスト出力を生成します。 このモデルは効率性を重視して設計されており、画像に関する質問に答えたり、視覚的な内容を記述したり、テキストを文字起こししたりすることができます。 軽量なアーキテクチャのため、マルチモーダルタスクで強力なパフォーマンスを維持しながらも、デバイス上でのアプリケーションに適しています。 1.23GB の GPU RAM で 1 枚の画像の推論を実行することが可能です。
apt install llm-model-smolvlm-500m-ax630c