Голосовая биометрия: возможности и риски

Компания Marion Networks известна обширной базой знаний, ранее считавшейся образцовой. Сейчас, по словам спикера, эта роль переходит к Олегу Тундайкину и его команде. Несмотря на потенциальную конкуренцию, отмечается дружеское сотрудничество.

Уникальность голоса как биометрического признака

Каждый человек уникален: отпечатков пальцев, вен, радужной оболочки глаза, поведенческих особенностей, эмоциональной составляющей и, конечно, голоса. Уникальность голоса обусловлена физиологическими (колебания голосовых связок, резонаторы – зубы, язык, гайморовы пазухи) и поведенческими (уверенность, эмоции) факторами.

Идентификация и верификация

Голосовая биометрия решает две задачи: идентификацию и верификацию. Идентификация определяет звонящего, сопоставляя речь с большим массивом голосовых шаблонов (например, в контакт-центре). Верификация проверяет, является ли звонящий тем, за кого себя выдает, сопоставляя речь с одним конкретным шаблоном.

Анализ голоса: основные факторы

Голосовые биометрические системы анализируют более 80 факторов. К основным относятся:

  • Основной тон (базовый тон): Частота основного тона указывает на его высоту. Преобразование Фурье позволяет перейти в частотный домен для анализа частот. По основному тону можно определить пол и приблизительный возраст (мужчины: 80-150 Гц, женщины: 150-250 Гц, дети: 250-600 Гц).
  • Спектрально-формантный анализ: Форманты – концентрации энергии на определённых частотных участках, формирующие уникальный тембр голоса. Они особенно заметны на гласных звуках. Формантный спектр индивидуален.
  • Нормальное распределение (гауссово распределение): Смесь голосовых распределений создаёт вероятностную модель звуков в речи. Многократное суммирование случайных значений, подобно эксперименту с подбрасыванием монетки, приближает распределение к нормальному. Аналогично, анализ голоса при многократном суммировании случайных значений приближается к нормальному распределению.

Типы голосовых биометрических систем

Системы делятся на:

  • Текстонезависимые: Не требуют произнесения конкретных фраз. 10 секунд речи достаточно для оценки вероятности идентификации.
  • Текстозависимые со статической парольной фразой: Требуют произнесения заданной фразы. Экономически выгодны, так как уменьшают потребность в большом количестве операторов.
  • Текстозависимые с динамической парольной фразой: Требуют произнесения случайной последовательности цифр или слов. Более защищены от атак.

Атаки на голосовые биометрические системы

  • Запись голоса: Запись и воспроизведение кодовой фразы затруднены многократным повторением. Различия в артикуляции и дыхании делают записи биометрически различными.
  • Синтез речи: Современные технологии синтеза речи (Марковский процесс) могут имитировать голос, но не волатильность естественной речи, особенно на высоких частотах. Это позволяет системе отличать синтезированную речь от натуральной.
  • Конвертация голоса: Реальная конвертация в режиме реального времени возможна, но система может распознать различия в артикуляции.

Безопасность и хранение данных

Важно хранить голосовые слепки в защищённом сегменте сети.

Платформа VoiceIT

Платформа VoiceIT предлагает бесплатный доступ к API (тысяча запросов в 30 дней) для тестирования. Предоставляет библиотеки для PHP, NodeJS, C#, Python. Процесс включает создание пользователя с голосовым слепком и его последующую аутентификацию с оценкой достоверности (confidence).

Голосовая биометрия – перспективная технология, применяемая некоторыми банками для оптимизации ресурсов и сокращения количества операторов. Однако, как и любая система, она имеет уязвимости, которые активно исследуются и совершенствуются. Помимо банковского сектора, голосовая биометрия имеет широкое применение, например, в сфере обслуживания клиентов.

Что будем искать? Например,программа