pdf-icon

StackFlow AI プラットフォーム

テキストを音声に変換する

準備

例のプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール方法については、モデル一覧を参照してください。

この例のプログラムを実行する前に、LLM デバイスで以下の準備が完了していることを確認してください:

  1. apt パッケージ管理ツールを使用して、llm-model-melotts-en-usモデルパッケージをインストールします。
apt install llm-model-melotts-en-us
  1. ffmpegツールをインストールします。
apt install ffmpeg
  1. インストール後、OpenAI サービスを再起動して新しいモデルを有効にします。
systemctl restart llm-openai-api

PC 端で OpenAI API を通じてテキスト情報を送信し、テキストを音声に変換する機能を実現します。ケースプログラムを実行する前に、以下の base_url の IP 部分を機器の実際の IP アドレスに変更してください。

from pathlib import Path
from openai import OpenAI

client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
  model="melotts-en-us",
  voice="alloy",
  input="The quick brown fox jumped over the lazy dog."
) as response:
  response.stream_to_file(speech_file_path)

リクエストパラメータ

パラメータ名 タイプ 必須 例の値 説明
input string はい "こんにちは" 音声を生成するテキスト内容。最大長は 1024 文字です
model string はい melotts-zh-cn 使用可能な音声合成モデル。melotts-ja-jpmelotts-zh-cnmelotts-en-usなどがあります
voice いいえ 声質スタイルの選択(現在サポートされていません)
response_format string いいえ mp3 音声出力形式。mp3opusaacflacwavpcmなどをサポートします
speed number いいえ 1.0 音声生成速度。範囲は 0.25–2.0、デフォルトは 1.0 です

レスポンスの例

音声ファイルデータは、例のプログラムで指定されたspeech_file_pathに保存されます。

On This Page