例のプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール方法については、モデル一覧を参照してください。
この例のプログラムを実行する前に、LLM デバイスで以下の準備が完了していることを確認してください:
llm-model-melotts-en-us
モデルパッケージをインストールします。apt install llm-model-melotts-en-us
ffmpeg
ツールをインストールします。apt install ffmpeg
systemctl restart llm-openai-api
PC 端で OpenAI API を通じてテキスト情報を送信し、テキストを音声に変換する機能を実現します。ケースプログラムを実行する前に、以下の base_url の IP 部分を機器の実際の IP アドレスに変更してください。
from pathlib import Path
from openai import OpenAI
client = OpenAI(
api_key="sk-",
base_url="http://192.168.20.186:8000/v1"
)
speech_file_path = Path(__file__).parent / "speech.mp3"
with client.audio.speech.with_streaming_response.create(
model="melotts-en-us",
voice="alloy",
input="The quick brown fox jumped over the lazy dog."
) as response:
response.stream_to_file(speech_file_path)
パラメータ名 | タイプ | 必須 | 例の値 | 説明 |
---|---|---|---|---|
input | string | はい | "こんにちは" | 音声を生成するテキスト内容。最大長は 1024 文字です |
model | string | はい | melotts-zh-cn | 使用可能な音声合成モデル。melotts-ja-jp 、melotts-zh-cn 、melotts-en-us などがあります |
voice | – | いいえ | – | 声質スタイルの選択(現在サポートされていません) |
response_format | string | いいえ | mp3 | 音声出力形式。mp3 、opus 、aac 、flac 、wav 、pcm などをサポートします |
speed | number | いいえ | 1.0 | 音声生成速度。範囲は 0.25–2.0、デフォルトは 1.0 です |
音声ファイルデータは、例のプログラムで指定されたspeech_file_path
に保存されます。