pdf-icon

StackFlow AI プラットフォーム

アプリケーション

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

CosyVoice2-API

OpenAI API と互換性のある利用方法を提供しています。StackFlow パッケージをインストールするだけで使用できます。

準備作業

  1. AI Pyramid ソフトウェアパッケージ更新 を参照し、以下のモデルパッケージおよびソフトウェアパッケージのインストールを完了してください。
apt install lib-llm llm-sys llm-cosy-voice llm-openai-api
apt install llm-model-cosyvoice2-0.5b-ax650
注意
新しいモデルをインストールするたびに、systemctl restart llm-openai-api を手動で実行してモデル一覧を更新する必要があります。
注意
CosyVoice2 は LLM をベースとした音声生成モデルで、自然で滑らかな音声を合成できますが、リソースや設計上の制限により、1 回あたりに生成できる音声の長さには制限があります。現在のバージョンでは、生成可能な音声の最大長は 27 秒です。初回のモデル読み込みには時間がかかるため、しばらくお待ちください。

Curl 呼び出し

curl http://127.0.0.1:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "CosyVoice2-0.5B-ax650",
    "response_format": "wav",
    "input": "君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。"
  }' \
  -o output.wav

Python 呼び出し

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://127.0.0.1:8000/v1"
)

speech_file_path = Path(__file__).parent / "output.wav"
with client.audio.speech.with_streaming_response.create(
  model="CosyVoice2-0.5B-ax650",
  voice="prompt_data",
  response_format="wav",
  input='君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。',
) as response:
  response.stream_to_file(speech_file_path)

音色クローン

  1. モデルを手動でダウンロード して AI Pyramid にアップロードするか、以下のコマンドでモデルリポジトリを取得してください。
提示
git lfs がインストールされていない場合は、先に git lfs インストール手順 を参照してインストールしてください。
git clone --recurse-submodules https://huggingface.co/M5Stack/CosyVoice2-scripts

ファイル説明

root@m5stack-AI-Pyramid:~/CosyVoice2-scripts# ls -lh
total 28K
drwxr-xr-x 2 root root 4.0K Jan  9 10:26 asset
drwxr-xr-x 2 root root 4.0K Jan  9 10:26 CosyVoice-BlankEN
drwxr-xr-x 2 root root 4.0K Jan  9 10:27 frontend-onnx
drwxr-xr-x 3 root root 4.0K Jan  9 10:26 pengzhendong
-rw-r--r-- 1 root root   24 Jan  9 10:26 README.md
-rw-r--r-- 1 root root  103 Jan  9 10:26 requirements.txt
drwxr-xr-x 3 root root 4.0K Jan  9 10:26 scripts
  1. 仮想環境を作成
提示
初回作成時は、事前に apt install python3.10-venv を実行してインストールしてください。
python3 -m venv cosyvoice
  1. 仮想環境を有効化
source cosyvoice/bin/activate
  1. 依存パッケージをインストール
pip install -r requirements.txt
  1. process_prompt スクリプトを実行
python3 scripts/process_prompt.py --prompt_text  asset/zh_woman1.txt --prompt_speech asset/zh_woman1.wav --output zh_woman1

音声特徴ファイルが正常に生成されます。

(cosyvoice) root@m5stack-AI-Pyramid:~/CosyVoice2-scripts# python3 scripts/process_prompt.py --prompt_text  asset/zh_woman1.txt --prompt_speech asset/zh_woman1.wav --output zh_woman1
2026-01-09 10:41:18.655905428 [W:onnxruntime:Default, device_discovery.cc:164 DiscoverDevicesForPlatform] GPU device discovery failed: device_discovery.cc:89 ReadFileContents Failed to open file: "/sys/class/drm/card1/device/vendor"
prompt_text 希望你以后能够做的比我还好呦。
fmax 8000
prompt speech token size: torch.Size([1, 87])
  1. zh_woman1 ファイルをモデルディレクトリにコピーし、モデルを再初期化します。
cp -r zh_woman1 /opt/m5stack/data/CosyVoice2-0.5B-ax650/
systemctl restart llm-sys # モデル設定をリセット
提示
デフォルトのクローン音色を置き換えたい場合は、**/opt/m5stack/data/models/mode_CosyVoice2-0.5B-ax650.json** ファイル内の prompt_dir フィールドを置き換えるディレクトリに変更してください。音色を変更するたびに、モデルの再初期化が必要です。

Curl 呼び出し

curl http://127.0.0.1:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "CosyVoice2-0.5B-ax650",
    "voice": "zh_woman1",
    "response_format": "wav",
    "input": "君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。"
  }' \
  -o output.wav

Python 呼び出し

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://127.0.0.1:8000/v1"
)

speech_file_path = Path(__file__).parent / "output.wav"
with client.audio.speech.with_streaming_response.create(
  model="CosyVoice2-0.5B-ax650",
  voice="zh_woman1",
  response_format="wav",
  input='君不见黄河之水天上来,奔流到海不复回。君不见高堂明镜悲白发,朝如青丝暮成雪。人生得意须尽欢,莫使金樽空对月。天生我材必有用,千金散尽还复来。',
) as response:
  response.stream_to_file(speech_file_path)
On This Page