Теперь, прежде чем читать этот блог, вы должны знать, что MFCC (частотный кепстральный коэффициент Мела) широко используется в распознавании речи в искусственном интеллекте. MFCC в основном используется для извлечения признаков из заданного аудиосигнала. Давайте сначала посмотрим на блок-схему описания шагов, связанных с MFCC:

Аналогово-цифровое преобразование:
Этот шаг в основном включает преобразование аналогового сигнала в цифровой сигнал. Это связано с тем, что большинство шагов, которые мы выполняем при распознавании речи, выполняются с цифровыми сигналами. Существуют различные этапы преобразования аналогового сигнала в цифровой, такие как дискретизация, квантование, нормализация, обработка на основе кадров и т. д. Подробное описание этапов будет опубликовано в следующем блоге.

Предыскажение.
Шаг предыскажения обычно реализуется с помощью фильтра верхних частот первого порядка. Фильтр подчеркивает высокочастотный контент, который имеет решающее значение для различения звуки речи и важные детали в звуковом сигнале. Применяя фильтр верхних частот с предыскажением, амплитуда высокочастотных компонентов увеличивается по сравнению с низкочастотными компонентами. Увеличение энергии звука на более высокой частоте повысит точность обнаружения телефона. (Не путайте с мобильным телефоном)

Оконный режим:
Оконный режим простыми словами означает разбиение аудиосигнала на различные сегменты со стандартными 25 мс и 10 мс для расстояние между сигналами. Кроме того, при создании сегментов, чтобы избежать чрезмерного шума из-за обрезки, вместо прямоугольных сегментов у нас есть окна хамминга.
Причина выбора значения 25 мс:
Среднее количество слов, произнесенных человеком за 1 секунду, составляет 3 слова. Каждое слово содержит 4 телефона, которые, в свою очередь, содержат 3 состояния.
Итак, общее количество состояний за 1 секунду = 3 * 4 * 3 = 36 состояний. Таким образом, 1 состояние займет около 28 мс, что близко к выбранному значению 25 мс.

DFT (дискретное преобразование Фурье):
Мы будем использовать DFT для преобразования сигнала из временной области в частотную область для вычисления коэффициентов MFCC на следующих этапах. Проще говоря, вы можете рассматривать это как ряд комплексных чисел.

Банк фильтров Mel:
Прежде чем углубляться в этот термин, давайте сначала разберемся, как такие люди, как мы, слышат звук? В основном человеческие уши очень чувствительны к низкочастотному звуку, когда мы сравниваем его с высокочастотным звуком. Просто в качестве примера мы можем сказать, что люди могут легко различить разницу между звуком 100 Гц и 200 Гц, но нам будет очень трудно определить разницу между звуком 2100 Гц и 2000 Гц. Итак, чтобы имитировать это в машинах, мы используем шкалу мела, чтобы найти частоту звука, которую слышит человек:

Log():
Давайте вспомним одно из важных свойств логарифмической функции, которое говорит нам, что при меньшем входном значении градиент относительно больше, а при большом градиенте значение ввода относительно невелико. Это означает, что по мере увеличения значения ввода значение уменьшается. Это похоже на то, что делает наш слуховой механизм. Человеческие уши более чувствительны к звуковому сигналу при более низкой энергии, чем при более высокой энергии. Вот почему мы применим функцию log() для имитации человеческого уха.

IDFT:
IDFT означает обратное дискретное преобразование Фурье. После извлечения функций MFCC нам нужно преобразовать аудиосигнал из частотной области во временную область. Модель MFCC принимает первые 12 коэффициентов после применения IDFT вместе с энергией в качестве признака.

Динамические функции.
Помимо 13 функций, MFCC также будет учитывать производные функций первого и второго порядка. Это оставляет нам еще 26 функций для рассмотрения. Таким образом, MFCC будет генерировать 39 признаков из каждого звукового сигнала.
Дельта-коэффициенты (Δ MFCC) или производная первого порядка представляют скорость изменения статических коэффициентов MFCC с течением времени. Они помогают фиксировать динамические изменения.
Коэффициенты дельта-дельта (ΔΔ MFCC) или производные второго порядка представляют собой ускорение или скорость изменения дельта-коэффициентов с течением времени. Оба они помогают получить окончательный вектор признаков для каждого из кадров.