音声からテキストへの変換

APIインターフェースを介して音声入力をテキスト出力に変換します。

準備作業

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順はモデルリスト章をご参照ください。

本サンプルプログラムを実行する前に、LLMデバイス上で以下の準備を完了していることを確認してください：

aptパッケージ管理ツールを使用して llm-model-whisper-tiny モデルパッケージをインストールします。

apt install llm-model-whisper-tiny

ffmpeg ツールをインストールします。

apt install ffmpeg

インストール完了後、新しいモデルを有効にするために OpenAI サービスを再起動します。

systemctl restart llm-openai-api

サンプルプログラム

PC側で OpenAI API を使用して音声ファイルを渡し、音声をテキストに変換する機能を実装します。サンプルプログラムを実行する前に、下記 base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from openai import OpenAI
client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-tiny",
  language="en",
  file=audio_file
)

print(transcript) 

リクエストパラメータ

パラメータ名	型	必須	例	説明
file	file	yes	–	転写対象の音声ファイルオブジェクト（ファイル名ではなく）、サポートされるフォーマットには flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm が含まれます
model	string	yes	whisper-base	使用する音声認識モデルの ID。選択肢には `whisper-tiny`、`whisper-base`、`whisper-small` が含まれます
language	string	yes	en	入力音声の言語。ISO-639-1 コード（例：`en`）を使用します。認識精度と速度が向上します
response_format	string	no	json	返却フォーマット。現在 `json` のみサポートされています。デフォルトは `json` です

レスポンス例

Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....', 
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16) 

Next Overview

Overview

Linux PC

CM4Stack

CoreMP135

Industrial Control

StamPLC

LLM

Real-Time AI Voice Assistant

OpenAI Voice Assistant

XiaoZhi Voice Assistant

Offline Voice Recognition

Unit ASR

Home Assistant

Zigbee

Module Gateway H2

Unit Gateway H2

Thread

Module Gateway H2

Unit Gateway H2

IoT Measuring Instruments

VAMeter

T-Lite

IoT Cloud

AWS IoT Core

Ezdata

Ethernet Camera

PoECAM

Wi-Fi Camera

TimerCAM

Unit CamS3

AI Camera

UnitV2

M5StickV/UnitV

LoRa & LoRaWAN

TTN (The Things Network)

Motor Control

Unit Roller485/CAN

Develop Tools

Network

Hobby Kit

ファームウェアの初期化

ディップスイッチ使用ガイド

Module GPS v2.0

Module GNSS

Module ExtPort For Core2

Module LoRa868 V1.2

音声からテキストへの変換

準備作業

サンプルプログラム

リクエストパラメータ

レスポンス例

On This Page