jina-clip-v2 は、テキストと画像のための汎用多言語マルチモーダル埋め込みモデルです。
git clone https://huggingface.co/AXERA-TECH/jina-clip-v2 ファイル説明
(ppocr) m5stack@raspberrypi:~/rsp/jina-clip-v2 $ ls -lh
total 1.7G
-rw-rw-r-- 1 m5stack m5stack 51K Oct 20 12:24 beach1.jpg
-rw-rw-r-- 1 m5stack m5stack 0 Oct 20 12:24 config.json
-rw-rw-r-- 1 m5stack m5stack 351M Oct 20 12:25 image_encoder.axmodel
drwxrwxr-x 2 m5stack m5stack 4.0K Oct 20 12:24 jina-clip-v2
-rw-rw-r-- 1 m5stack m5stack 1.3K Oct 20 12:24 README.md
-rw-rw-r-- 1 m5stack m5stack 3.2K Oct 20 12:24 run_axmodel.py
-rw-rw-r-- 1 m5stack m5stack 1.3G Oct 20 12:26 text_encoder.axmodel
``
2. 仮想環境を作成します
```bash
python -m venv clip source clip/bin/activate pip install https://github.com/AXERA-TECH/pyaxengine/releases/download/0.1.3.rc2/axengine-0.1.3-py3-none-any.whl
pip install torch pillow transformers timm torchvision python run_axmodel.py 実行結果:
(clip) m5stack@raspberrypi:~/rsp/jina-clip-v2 $ python3 run_axmodel.py -i beach1.jpg -t "beautiful sunset over the beach" -iax ./image_encoder.axmodel -tax ./text_encoder.axmodel --hf_path ./jina-clip-v2
[INFO] Available providers: ['AXCLRTExecutionProvider']
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 df480136
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 27910799
`use_fast` が設定されておらず、このモデルには遅いプロセッサが保存されているため、遅い画像プロセッサを使用しています。`use_fast=True` は v4.52 でデフォルト動作になります。これにより出力にわずかな違いが出ますが、遅いプロセッサは `use_fast=False` で使用可能です。
次のファイルの新しいバージョンが https://huggingface.co/jinaai/jina-clip-implementation からダウンロードされました:
- transform.py
新しいコードファイルに悪意のあるコードが追加されていないことを必ず確認してください。新しいバージョンのコードのダウンロードを避けるには、リビジョンを固定することができます。
text -> image: 0.3140323