Этот урок посвящен работе с моделью Whisper от OpenAI для распознавания речи. Создадим проект, извлекающий текст из аудиофайлов и переводящий его на другие языки.
Необходимые компоненты
Для работы необходимы:
- API-ключ OpenAI (можно использовать тот же, что и в предыдущих уроках).
- Библиотека openai (установите её через терминал, если ещё не установлена: pip install openai).
- Аудиофайл (можно использовать собственный или любой другой).
Распознавание речи
Рассмотрим пример с аудиофайлом audio.mp3. Для его открытия используем функцию open() в Python:
audio_file = open("audio.mp3", "rb")
Далее, воспользуемся библиотекой openai и функцией transcribe() класса Audio:
import openai
openai.api_key = "YOUR_API_KEY" # Замените на свой API-ключ
audio_file = open("audio.mp3", "rb")
response = openai.Audio.transcribe(
model="whisper-1",
file=audio_file,
response_format="text"
)
print(response) # Вывод: "Это проверка звука 1234"
Код выведет на экран текст: «Это проверка звука 1234».
Перевод текста
Библиотека openai предоставляет функцию translate() для перевода распознанного текста. Например, для перевода на английский язык (добавляем после print(response)):
translation = openai.Audio.translate(
model="whisper-1",
file=audio_file,
response_format="text"
)
print(translation) # Вывод: "Sound check 1234"
Фраза «проверка звука» переведена как «sound check».
Применение на практике
Полученные навыки позволяют создавать приложения, например, Telegram-бота, принимающего аудио- или видеофайлы и возвращающего их текстовую расшифровку. Это открывает возможности для создания коммерческих сервисов.
В этом уроке мы освоили использование модели Whisper API для распознавания речи и перевода аудиофайлов. Это мощный инструмент для автоматизации обработки аудиоконтента и создания приложений.