Важность адаптивного автоматического распознавания речи: зачем нам эта модель для транскрипции

Автоматическое распознавание речи (ASR) — это следующий рубеж в интеллектуальном взаимодействии человека и машины, а также необходимое условие для совершенствования машинного перевода и понимания естественного языка.

Это использование компьютерного оборудования и программных средств для идентификации и обработки человеческого голоса. ASR идентифицирует слова, произнесенные человеком, или для аутентификации личности говорящего в системе.

Человеку необходимо тренировать систему автоматического распознавания речи, запоминая речевые паттерны и словарный запас.

Автоматическое распознавание речи также известно как автоматическое распознавание голоса (AVR), преобразование голоса в текст или распознавание речи. Для ASR требуются предварительно настроенные или сохраненные голоса основных пользователей. Потребности человека в обучении автоматической системы распознавания речи путем запоминания речевых паттернов и словарного запаса.

На самом деле грамматика транскрипции и распознавания речи — это очень разные существа. С грамматикой, когда пользователь дает ответ, распознавание речи не знает, что было сказано. Он знает только то, что звуки соответствовали или не соответствовали звукам, которые могли бы соответствовать выбору грамматики.

Например, если грамматика «красный, синий, фиолетовый», а я говорю «взорвался», это совпадет. Звуки одинаковые, так что все совпадает.

Речевой движок не пытается понять, что кто-то сказал, он пытается сопоставить звуковой паттерн.

Однако, если вы установите достаточно низкий уровень достоверности, «насильственный» тоже может соответствовать или даже что-то вроде «пилот». Речевой движок не пытается понять, что кто-то сказал, он пытается сопоставить звуковой образ.

В наборе звуков, составляющих слово в грамматике, как далеко находится слышимый звук? Вот почему фоновый шум иногда можно сопоставить с положительным совпадением.

Но транскрипция работает, слушая длинную цепочку звуков и сравнивая образцы в макросмысле. Если в 30-секундном фрагменте есть «этот» звук в начале и «этот» звук в конце, то «этот» звук в середине — это «Х».

Требуется много проходов и используются предположения о различных компонентах звука, чтобы сделать предположения о других компонентах. За несколько проходов он может уточнить эти догадки до того, что, вероятно, было сказано.

Те немногие организации, которые используют технологию преобразования речи в текст для полностью автоматической транскрипции, достигают среднего уровня точности только в 70–80 %.

В результате этого те немногие организации, которые используют технологию преобразования речи в текст для полностью автоматической транскрипции, достигают среднего уровня точности только 70–80%.

Эти компании не соответствуют стандартам качества, где во многих случаях даже 95% недостаточно для передачи сложного материала.

Чтобы компенсировать это, большинство профессиональных поставщиков услуг транскрипции, которые используют автоматическое распознавание речи, полагаются на вмешательство человека, чтобы преодолеть недостаток точности, что еще больше ограничивает операционные возможности из-за меньших объемов, более низкой скорости обработки и более высоких затрат.

большинство современных механизмов автоматического распознавания речи недостаточно точны, чтобы на них можно было положиться при постоянном использовании.

Кроме того, большинство современных механизмов автоматического распознавания речи (ASR) недостаточно точны, чтобы полагаться на них при постоянном использовании, и еще более подвержены ошибкам при использовании в шумной среде, что создает серьезную проблему для принятия этих приложений в транскрипцию и рынок субтитров.

Даже для обученных систем распознавания речи, таких как Dragon, отдельные слова дают ужасные результаты. Дракон не может определить, был ли изданный вами звук «Синий», «Ууу», или даже «тушеное мясо».

Еще одним серьезным препятствием для высокоточного распознавания является большая изменчивость характеристик речевого сигнала, таких как лингвистические, говорящие и акустические различия.

Хотите поговорить об этом подробнее -› [email protected]

Собственная технология Verbit ASR преодолевает это препятствие, используя 3 модели:

  • Акустическая модель. Представляет взаимосвязь между звуковым сигналом и фонемами или другими языковыми единицами, составляющими речь. Уменьшает фоновый шум и эхо. Идентифицирует динамики и устраняет факторы, снижающие качество звука.
  • Модель языка. Определяет этот набор фраз или, по крайней мере, определяет вероятность того, что одно слово следует за другим. Определяет доменный термин, распознает различные акценты и диалекты и различает говорящих.
  • Контекстная модель. Включает текущие события, последние новости и обновления в адаптивный цикл, чтобы гарантировать максимальную точность.

Затем файл проходит через модуль статистического анализа, который анализирует текст и определяет тему файла.

Это представляет собой значительный прорыв в отрасли, поскольку Verbit — первое программное обеспечение для транскрипции и субтитров, способное различать тему файла (медицинская, финансовая, юридическая транскрипция и т. д.).

Это позволяет системе накапливать базу данных слов, связанных с темой, для повышения согласованности и уверенности при каждом использовании.

Verbit включает в себя последние достижения в области Глубокого обучения, Нейронных сетей и Понимания естественного языка для обучения своего алгоритма, делая его все более и более точным. через некоторое время.

Без сомнения, модель, использующая адаптацию к механизму распознавания речи, — это будущее индустрии транскрипции.

Ресурсы:

https://www.techopedia.com/definition/6044/automatic-speech-recognition-asr

https://www.sciencedirect.com/topics/engineering/automatic-speech-recognition

https://www.quora.com/What-is-automatic-speech-recognition

https://www.callrail.com/blog/speech-recognition-software/

https://verbit.ai/from-audrey-to-siri-the-evolution-of-speech-recognition-technologies/