音声をテキストに変換する

API インターフェースを通じて入力音声を出力テキストに変換します。

準備

例のプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール方法については、モデル一覧を参照してください。

この例のプログラムを実行する前に、LLM デバイスで以下の準備が完了していることを確認してください：

apt パッケージ管理ツールを使用して、llm-model-whisper-tinyモデルパッケージをインストールします。

apt install llm-model-whisper-tiny

ffmpegツールをインストールします。

apt install ffmpeg

インストール後、OpenAI サービスを再起動して新しいモデルを有効にします。

systemctl restart llm-openai-api

例

PC 端で OpenAI API を通じて音声ファイルを送信し、音声をテキストに変換する機能を実現します。ケースのプログラムを実行する前に、以下の base_url の IP 部分を機器の実際の IP アドレスに変更してください。

from openai import OpenAI
client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-tiny",
  language="en",
  file=audio_file
)

print(transcript) 

リクエストパラメータ

パラメータ名	タイプ	必須	例の値	説明
file	file	はい	–	文字起こしを行う音声ファイルオブジェクト（ファイル名ではなく）。サポートされる形式には flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm が含まれます
model	string	はい	whisper-base	使用する音声認識モデルの ID。オプションには`whisper-tiny`、`whisper-base`、`whisper-small`があります
language	string	はい	en	入力音声の言語を ISO-639-1 形式（例：`en`）で指定します。認識精度と速度を向上させます
response_format	string	いいえ	json	返り値の形式。現在`json`のみサポートされています。デフォルトは`json`です

レスポンスの例

Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....',
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16) 

Next 概要

デバイスとクイックスタート

Module LLM

LLM630 Compute Kit

モデルの紹介

Qwen2.5

Qwen3

DeepSeek-R1

SmolVLM

MeloTTS

Whisper

Llama

アプリケーション

Audio

CVビジョンアプリケーション

VLMマルチモーダル

大規模言語モデル (LLM)

音声アシスタント

OpenAI API

音声をテキストに変換する

準備

例

リクエストパラメータ

レスポンスの例

On This Page