ChatGPT: Обработка звука с Whisper API

Этот урок посвящен работе с моделью Whisper от OpenAI для распознавания речи. Создадим проект, извлекающий текст из аудиофайлов и переводящий его на другие языки.

Необходимые компоненты

Для работы необходимы:

  • API-ключ OpenAI (можно использовать тот же, что и в предыдущих уроках).
  • Библиотека openai (установите её через терминал, если ещё не установлена: pip install openai).
  • Аудиофайл (можно использовать собственный или любой другой).

Распознавание речи

Рассмотрим пример с аудиофайлом audio.mp3. Для его открытия используем функцию open() в Python:

audio_file = open("audio.mp3", "rb")

Далее, воспользуемся библиотекой openai и функцией transcribe() класса Audio:

import openai

openai.api_key = "YOUR_API_KEY" # Замените на свой API-ключ

audio_file = open("audio.mp3", "rb")
response = openai.Audio.transcribe(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)
print(response) # Вывод: "Это проверка звука 1234"

Код выведет на экран текст: «Это проверка звука 1234».

Перевод текста

Библиотека openai предоставляет функцию translate() для перевода распознанного текста. Например, для перевода на английский язык (добавляем после print(response)):

translation = openai.Audio.translate(
    model="whisper-1",
    file=audio_file,
    response_format="text"
)
print(translation) # Вывод: "Sound check 1234"

Фраза «проверка звука» переведена как «sound check».

Применение на практике

Полученные навыки позволяют создавать приложения, например, Telegram-бота, принимающего аудио- или видеофайлы и возвращающего их текстовую расшифровку. Это открывает возможности для создания коммерческих сервисов.

В этом уроке мы освоили использование модели Whisper API для распознавания речи и перевода аудиофайлов. Это мощный инструмент для автоматизации обработки аудиоконтента и создания приложений.

Что будем искать? Например,программа