pdf-icon

Product Guide

Industrial Control

Real-Time AI Voice Assistant

Offline Voice Recognition

Thread

Module Gateway H2

IoT Measuring Instruments

IoT Cloud

Ethernet Camera

LoRa & LoRaWAN

ディップスイッチ使用ガイド

Module ExtPort For Core2

音声からテキストへの変換

APIインターフェースを介して音声入力をテキスト出力に変換します。

準備作業

サンプルプログラムを実行する前に、デバイスに対応するモデルパッケージをインストールする必要があります。モデルパッケージのインストール手順はモデルリスト章をご参照ください。

本サンプルプログラムを実行する前に、LLMデバイス上で以下の準備を完了していることを確認してください:

  1. aptパッケージ管理ツールを使用して llm-model-whisper-tiny モデルパッケージをインストールします。
apt install llm-model-whisper-tiny
  1. ffmpeg ツールをインストールします。
apt install ffmpeg
  1. インストール完了後、新しいモデルを有効にするために OpenAI サービスを再起動します。
systemctl restart llm-openai-api

サンプルプログラム

PC側で OpenAI API を使用して音声ファイルを渡し、音声をテキストに変換する機能を実装します。サンプルプログラムを実行する前に、下記 base_url の IP 部分をデバイスの実際の IP アドレスに変更してください。

from openai import OpenAI
client = OpenAI(
    api_key="sk-",
    base_url="http://192.168.20.186:8000/v1"
)

audio_file = open("speech.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-tiny",
  language="en",
  file=audio_file
)

print(transcript)

リクエストパラメータ

パラメータ名 必須 説明
file file yes 転写対象の音声ファイルオブジェクト(ファイル名ではなく)、サポートされるフォーマットには flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm が含まれます
model string yes whisper-base 使用する音声認識モデルの ID。選択肢には whisper-tinywhisper-basewhisper-small が含まれます
language string yes en 入力音声の言語。ISO-639-1 コード(例:en)を使用します。認識精度と速度が向上します
response_format string no json 返却フォーマット。現在 json のみサポートされています。デフォルトは json です

レスポンス例

Transcription(text=' Thank you. Thank you everybody. All right everybody go ahead and have a seat. How\'s everybody doing today? .....', 
logprobs=None, task='transcribe', language='en', duration=334.234, segments=12, sample_rate=16000, channels=1, bit_depth=16)
On This Page