Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора

Статья в журнале

Данная статья посвящена отбору и оценке речевых признаков, используемых в задаче автоматической текстонезависимой верификации диктора. Для решения поставленной задачи была использована система верификации диктора, основанная на модели Гауссовых смесей и универсальной фоновой модели (GMM-UBM система). Рассмотрены область применения и проблемы современных систем автоматической идентификации диктора. Произведен обзор современных методов идентификации диктора, основных речевых признаков, используемых при решении задачи идентификации диктора, а также рассмотрен процесс извлечения признаков, использованных далее. К рассмотренным признакам относятся мелкепстральные коэффициенты (MFCC), пары линейного спектра (LSP), кепстральные коэффициенты перцептивного линейного предсказания (PLP), кратковременная энергия, формантные частоты, частота основного тона, вероятность вокализации (voicing probability), частота пересечения нуля (ZCR), джиттер и шиммер. Произведена экспериментальная оценка GMM-UBM системы с применением различных наборов речевых признаков на речевом корпусе, включающем в себя записи 50 дикторов. Признаки отобраны с помощью генетического алгоритма и алгоритма жадного добавления-удаления. Используя 256-компонентные Гауссовы смеси и полученный вектор из 28 признаков, была получена равная ошибка 1-го и 2-го рода (EER), составляющая 0,579 %. По сравнению со стандартным вектором, состоящим из 14 мел-кепстральных коэффициентов, ошибка EER была уменьшена на 42,1 %.

Журнал:

  • Труды СПИИРАН
  • ФГБУ науки Санкт-Петербургский институт информатики и автоматизации РАН (СПИИРАН) (Санкт-Петербург)
  • Индексируется в Scopus

Библиографическая запись: Рахманенко, И. А. Анализ идентификационных признаков в речевых данных с помощью GMM-UBM системы верификации диктора [Электронный ресурс] / И. А. Рахманенко, Р. В. Мещеряков // Труды СПИИРАН. – 2017. – Вып. 52. – С. 32–50. – DOI: 10.15622/sp.52.2

Индексируется в:

Год издания:  2017
Страницы:  32 - 50
Язык:  Русский
DOI:  10.15622/sp.52.2