Публикации по теме 'speech-recognition'


Interspeech 2023: очные конференции возвращаются!
Мы вернулись! На прошлой неделе конференц-центр в Дублине был полон хорошего настроения и интересных дискуссий, поскольку около 2000 представителей сообщества науки и технологий речи собрались на свою ежегодную флагманскую конференцию. Это было первое очное выступление с тех пор, как Covid-19 поднял свою уродливую голову. Хотя у удаленных/гибридных конференций есть некоторые преимущества, я думаю, что большинство участников были благодарны за возможность разместить..

Раскрытие магии MFCC: ключевой метод распознавания речи
Теперь, прежде чем читать этот блог, вы должны знать, что MFCC (частотный кепстральный коэффициент Мела) широко используется в распознавании речи в искусственном интеллекте. MFCC в основном используется для извлечения признаков из заданного аудиосигнала. Давайте сначала посмотрим на блок-схему описания шагов, связанных с MFCC : Аналогово-цифровое преобразование : Этот шаг в основном включает преобразование аналогового сигнала в цифровой сигнал. Это связано с тем, что..

Whisper — Надежное распознавание речи с помощью крупномасштабного слабого контроля
Whisper — это универсальная модель распознавания речи, которая была тщательно обучена на широком диапазоне звуковых образцов. Это многозадачная модель, которая может выполнять несколько задач, включая распознавание многоязычной речи, перевод речи и идентификацию языка.

Количественная оценка неопределенности для распознавания речи
Когда и как доверять своей модели распознавания речи Оглавление Что такое неопределенность? Методы оценки неопределенности для распознавания речи Как мы можем извлечь выгоду из оценки неопределенности? Краткое содержание Обо мне Рекомендации За последние несколько лет автоматическое распознавание речи (ASR) сместилось в сторону более сложных и крупных архитектур нейронных сетей. Более высокая сложность повышает производительность модели, но, с другой стороны, становится..

Решения для автоматического распознавания речи и обработки естественного языка
Независимо от сценариев, компании могут получить потенциальные возможности для бизнеса, используя технологии обработки звука и речи на основе искусственного интеллекта. Ожидается, что с быстрым развитием этой технологии технология ИИ будет играть более важную роль во взаимодействии с предприятиями. Если все сделано правильно, эта технология улучшит качество обслуживания клиентов и бизнес-процессы, что принесет пользу обеим сторонам. Технология распознавания речи ASR..

Серия DeepLearning: модель внимания и распознавание речи
Эта модель является альтернативой архитектуре кодировщика-декодера RNN (см. Предыдущий блог ) и действует аналогично тому, как люди переводят. Поэтому не дожидаясь ввода всего предложения перед переводом, а начинайте делать это на ходу, просматривая одну часть исходного предложения за раз. Чтобы спроектировать модель таким образом, нам нужен контекст слов, на которые сеть обращает внимание, чтобы генерировать последующие слова. «Веса внимания» (α) обозначают, сколько внимания следует..

Вопросы по теме 'speech-recognition'

Как получить уверенность в гипотезе результата Sphinx4?
Я использую Sphinx4 в качестве реконизатора слов. Я сделал небольшой словарь и немного грамматики для нескольких слов, которые я хочу реконизировать. Метод SpeechResult result.getHypothesis() отлично работает, когда я произношу слово из моей...
534 просмотров
schedule 04.06.2024