CosyVoice2-API

我们提供一套兼容 OpenAI API 的使用方式，只需要安装 StackFlow 包即可。

准备工作

参考RaspberryPi & LLM8850 软件包获取教程，完成以下模型包和软件包的安装。

sudo apt install lib-llm llm-sys llm-cosy-voice llm-openai-api

sudo apt install llm-model-cosyvoice2-0.5b-axcl

注意

每次安装新模型后，需要手动执行 sudo systemctl restart llm-openai-api 更新模型列表。

注意

CosyVoice2 是一个基于 LLM 的语音生成模型，能够合成自然流畅的语音，但由于资源或设计限制，每次生成的音频长度有限。当前版本生成的音频最大长度为 27s，第一次加载模型较慢，请耐心等待。

Curl 调用

curl http://127.0.0.1:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "CosyVoice2-0.5B-axcl",
    "response_format": "wav",
    "input": "君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。"
  }' \
  -o output.wav

Python 调用

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://127.0.0.1:8000/v1"
)

speech_file_path = Path(__file__).parent / "output.wav"
with client.audio.speech.with_streaming_response.create(
  model="CosyVoice2-0.5B-axcl",
  voice="prompt_data",
  response_format="wav",
  input='君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。',
) as response:
  response.stream_to_file(speech_file_path) 

音色克隆

手动下载模型并上传到 raspberrypi5，或者通过以下命令拉取模型仓库。

提示

如果没有安装 git lfs，先参考git lfs 安装说明进行安装。

git clone --recurse-submodules https://huggingface.co/M5Stack/CosyVoice2-scripts

文件说明

m5stack@raspberrypi:~/rsp/CosyVoice2-scripts $ ls -lh
total 28K
drwxrwxr-x 2 m5stack m5stack 4.0K Nov  6 15:18 asset
drwxrwxr-x 2 m5stack m5stack 4.0K Nov  6 15:18 CosyVoice-BlankEN
drwxrwxr-x 2 m5stack m5stack 4.0K Nov  6 15:19 frontend-onnx
drwxrwxr-x 3 m5stack m5stack 4.0K Nov  6 15:18 pengzhendong
-rw-rw-r-- 1 m5stack m5stack   24 Nov  6 15:18 README.md
-rw-rw-r-- 1 m5stack m5stack  103 Nov  6 15:18 requirements.txt
drwxrwxr-x 3 m5stack m5stack 4.0K Nov  6 15:18 scripts

创建虚拟环境

python -m venv cosyvoice

激活虚拟环境

source cosyvoice/bin/activate

安装依赖包

pip install -r requirements.txt

运行 process_prompt 脚本

python3 scripts/process_prompt.py --prompt_text  asset/zh_woman1.txt --prompt_speech asset/zh_woman1.wav --output zh_woman1

成功生成音频特征文件

(cosyvoice) m5stack@raspberrypi:~/rsp/CosyVoice2-scripts $ python3 scripts/process_prompt.py --prompt_text  asset/zh_woman1.txt --prompt_speech asset/zh_woman1.wav --output zh_woman1
2025-11-06 15:54:43.619688866 [W:onnxruntime:Default, device_discovery.cc:164 DiscoverDevicesForPlatform] GPU device discovery failed: device_discovery.cc:89 ReadFileContents Failed to open file: "/sys/class/drm/card1/device/vendor"
prompt_text 希望你以后能够做的比我还好呦。
fmax 8000
prompt speech token size: torch.Size([1, 87])

复制 'zh_woman1' 文件到模型目录，并重新初始化模型。

cp -r zh_woman1 /opt/m5stack/data/CosyVoice2-0.5B-axcl/

sudo systemctl restart llm-sys # 重置模型配置

提示

如果想替换默认克隆音色，修改 /opt/m5stack/data/models/mode_CosyVoice2-0.5B-axcl.json 文件中的 prompt_dir 字段为替换的目录即可。每次替换音色需要重新初始化模型。

Curl 调用

curl http://127.0.0.1:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "CosyVoice2-0.5B-axcl",
    "voice": "zh_woman1",
    "response_format": "wav",
    "input": "君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。"
  }' \
  -o output.wav

Python 调用

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://127.0.0.1:8000/v1"
)

speech_file_path = Path(__file__).parent / "output.wav"
with client.audio.speech.with_streaming_response.create(
  model="CosyVoice2-0.5B-axcl",
  voice="zh_woman1",
  response_format="wav",
  input='君不见黄河之水天上来，奔流到海不复回。君不见高堂明镜悲白发，朝如青丝暮成雪。人生得意须尽欢，莫使金樽空对月。天生我材必有用，千金散尽还复来。',
) as response:
  response.stream_to_file(speech_file_path) 

Next 目录索引

Linux PC

CardputerZero

CM4Stack

CoreMP135

AI 加速卡

LLM-8850 Card

快速上手

视觉模型

大语言模型

多模态模型

音频模型

生成模型

应用列表

进阶使用

AI 智能体

Chat Coding(聊天造物)

实时 AI 语音助手

OpenAI 语音助手

小智语音助手

小聆语音助手

火山引擎语音助手

离线语音识别

Unit ASR

Module ASR

工业控制

StamPLC

IoT 测量仪表

Air Quality

PowerHub

Module13.2 PPS

VAMeter

T-Lite

输入输出设备

HID 输入设备

音频播放设备

显示设备

PaperColor

StopWatch

Ezdata

Ethernet 摄像头

PoECAM

Wi-Fi 摄像头

TimerCAM

Unit CamS3/-5MP

AI 摄像头

UnitV2

StickV/UnitV