Jina CLIP v2

jina-clip-v2 は、テキストと画像のための汎用多言語マルチモーダル埋め込みモデルです。

モデルを手動でダウンロードして raspberrypi5 にアップロードするか、以下のコマンドでモデルリポジトリを取得します。

ヒント

git lfs がインストールされていない場合は、まずgit lfs インストール手順を参照してインストールしてください。

git clone https://huggingface.co/AXERA-TECH/jina-clip-v2

ファイル説明

(ppocr) m5stack@raspberrypi:~/rsp/jina-clip-v2 $ ls -lh
total 1.7G
-rw-rw-r-- 1 m5stack m5stack  51K Oct 20 12:24 beach1.jpg
-rw-rw-r-- 1 m5stack m5stack    0 Oct 20 12:24 config.json
-rw-rw-r-- 1 m5stack m5stack 351M Oct 20 12:25 image_encoder.axmodel
drwxrwxr-x 2 m5stack m5stack 4.0K Oct 20 12:24 jina-clip-v2
-rw-rw-r-- 1 m5stack m5stack 1.3K Oct 20 12:24 README.md
-rw-rw-r-- 1 m5stack m5stack 3.2K Oct 20 12:24 run_axmodel.py
-rw-rw-r-- 1 m5stack m5stack 1.3G Oct 20 12:26 text_encoder.axmodel
``

2. 仮想環境を作成します

```bash
python -m venv clip

仮想環境を有効化します

source clip/bin/activate

依存パッケージをインストールします

pip install https://github.com/AXERA-TECH/pyaxengine/releases/download/0.1.3.rc2/axengine-0.1.3-py3-none-any.whl
pip install torch pillow transformers timm torchvision

実行します

python run_axmodel.py

実行結果：

(clip) m5stack@raspberrypi:~/rsp/jina-clip-v2 $ python3 run_axmodel.py -i beach1.jpg -t "beautiful sunset over the beach" -iax ./image_encoder.axmodel -tax ./text_encoder.axmodel --hf_path ./jina-clip-v2
[INFO] Available providers:  ['AXCLRTExecutionProvider']
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 df480136
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 27910799
`use_fast` が設定されておらず、このモデルには遅いプロセッサが保存されているため、遅い画像プロセッサを使用しています。`use_fast=True` は v4.52 でデフォルト動作になります。これにより出力にわずかな違いが出ますが、遅いプロセッサは `use_fast=False` で使用可能です。
次のファイルの新しいバージョンが https://huggingface.co/jinaai/jina-clip-implementation からダウンロードされました:
- transform.py
新しいコードファイルに悪意のあるコードが追加されていないことを必ず確認してください。新しいバージョンのコードのダウンロードを避けるには、リビジョンを固定することができます。
text -> image: 0.3140323 

Next Overview

Linux PC

CM4Stack

CoreMP135

AI アクセラレーターカード

LLM-8850 カード

クイックスタート

ビジョンモデル

大規模言語モデル

マルチモーダルモデル

音声モデル

生成モデル

アプリケーション一覧

高度な使用方法

LLM

リアルタイム音声アシスタント

OpenAI ボイスアシスタント

XiaoZhi ボイスアシスタント

XiaoLing ボイスアシスタント

AtomS3R-M12 Volcengine Kit

オフライン音声認識

Unit ASR

Module ASR

Industrial Control

StamPLC

IoT Measuring Instruments

Air Quality

PowerHub

Module13.2 PPS

VAMeter

T-Lite

入力デバイス

Ezdata

Ethernet Camera

PoECAM

Wi-Fi Camera

TimerCAM

Unit CamS3/-5MP

AI Camera

UnitV2

M5StickV/UnitV

LoRa & LoRaWAN

TTN (The Things Network)

Meshtastic

Motor Control

Unit Roller485/CAN

Develop Tools