文本转语音

通过API接口实现输入文本转换输出语音文件。

准备工作

案例程序执行前需在设备中安装对应的model模型包。模型包安装教程可参考模型列表章节。

在运行本示例程序之前，请确保已在 LLM 设备上完成以下准备工作：

使用 apt 包管理工具安装 llm-model-melotts-en-us 模型包。

apt install llm-model-melotts-en-us

安装 ffmpeg 工具。

apt install ffmpeg

安装完成后，重启 OpenAI 服务以使新模型生效。

systemctl restart llm-openai-api

案例程序

在 PC 端通过 OpenAI API 传入文本信息实现文本转换语音功能，案例程序执行前将下方base_url的IP部分修改为设备实际IP地址。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path) 

请求参数

参数名称	类型	必选	示例值	描述
input	string	是	"你好，欢迎使用系统"	要生成音频的文本内容，最大长度为 1024 个字符
model	string	是	melotts-zh-cn	可用的 TTS 模型，包括 `melotts-zh-cn` 和 `melotts-en-us`
voice	-	否	-	当前不支持语音风格选择
response_format	string	否	mp3	音频输出格式，支持 `mp3`, `opus`, `aac`, `flac`, `wav`, `pcm` 等
speed	number	否	1.0	生成语音的速度，范围为 0.25 ~ 2.0，默认值为 1.0

返回示例

语音文件数据将会存放至示例程序中的speech_file_path路径下。

Next 目录索引

目录索引

Linux PC

CM4Stack

CoreMP135

工业控制

StamPLC

大语言模型

实时 AI 语音助手

OpenAI 语音助手

小智语音助手

火山引擎语音助手

离线语音识别

Unit ASR

Home Assistant

Zigbee

Module Gateway H2

Unit Gateway H2

Thread

Module Gateway H2

Unit Gateway H2

IoT 测量仪表

VAMeter

T-Lite

IoT 云端服务

AWS IoT Core

Ezdata

Ethernet 摄像头

PoECAM

Wi-Fi 摄像头

TimerCAM

Unit CamS3

AI 摄像头

UnitV2

StickV/UnitV

LoRa & LoRaWAN

TTN (The Things Network)

电机驱动

Unit Roller485/CAN

开发工具

网络设备

爱好套装

恢复出厂固件教程

拨码开关&引脚切换

Module GPS v2.0

Module GNSS

Module ExtPort For Core2

Module LoRa868 V1.2

文本转语音

准备工作

案例程序

请求参数

返回示例

On This Page