API インターフェースを通じて入力音声を出力テキストに変換します。
例のプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール方法については、モデル一覧を参照してください。
この例のプログラムを実行する前に、LLM デバイスで以下の準備が完了していることを確認してください:
llm-model-whisper-tiny
モデルパッケージをインストールします。apt install llm-model-whisper-tiny
ffmpeg
ツールをインストールします。apt install ffmpeg
systemctl restart llm-openai-api
PC 端で OpenAI API を通じて音声ファイルを送信し、音声をテキストに変換する機能を実現します。ケースのプログラムを実行する前に、以下の base_url
の IP 部分を機器の実際の IP アドレスに変更してください。
from openai import OpenAI
client = OpenAI(
api_key="sk-",
base_url="http://192.168.20.186:8000/v1"
)
audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
model="whisper-tiny",
language="en",
file=audio_file
)
print(transcript)
パラメータ名 | タイプ | 必須 | 例の値 | 説明 |
---|---|---|---|---|
file | file | はい | – | 文字起こしを行う音声ファイルオブジェクト(ファイル名ではなく)。サポートされる形式には flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm が含まれます |
model | string | はい | whisper-base | 使用する音声認識モデルの ID。オプションにはwhisper-tiny 、whisper-base 、whisper-small があります |
language | string | はい | en | 入力音声の言語を ISO-639-1 形式(例:en )で指定します。認識精度と速度を向上させます |
response_format | string | いいえ | json | 返り値の形式。現在json のみサポートされています。デフォルトはjson です |
Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....',
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16)