Мы вернулись! На прошлой неделе конференц-центр в Дублине был полон хорошего настроения и интересных дискуссий, поскольку около 2000 представителей сообщества науки и технологий речи собрались на свою ежегодную флагманскую конференцию. Это было первое очное выступление с тех пор, как Covid-19 поднял свою уродливую голову. Хотя у удаленных/гибридных конференций есть некоторые преимущества, я думаю, что большинство участников были благодарны за возможность разместить онлайн-видеопрезентации в зеркале заднего вида. Еще одним поводом для празднования стало то, что в этом году компания Interspeech впервые внедрила процесс двойной слепой проверки. Это было давно назревшее изменение, которое было крайне необходимо для решения проблемы различий в приеме бумаги.

В ходе конференции выявилось несколько общих тенденций. В то время как в предыдущие годы аппетит к увеличению размеров моделей казался бесконечным, в этом году появилось больше статей, пытающихся сделать модели меньшими и более эффективными. Похоже, было больше статей, в которых исследовались меньшие архитектуры, методы квантования и сокращения, а также методы заставить модели работать на периферийных устройствах.

Было интересно наблюдать, как конформер (вариант архитектуры-трансформера 2020 года) стал повсеместным, даже для случаев использования, выходящих за рамки распознавания речи. В то время как преобразователь и его варианты вытеснили RNN в качестве средства моделирования последовательностей на время, RNN, похоже, немного вернулись в форме структурированных моделей в пространстве состояний (подробнее обсуждается ниже). Методы самоконтроля и неконтролируемого обучения по-прежнему широко фигурировали в слушаниях (как и в предыдущие годы), и, похоже, был достигнут значительный прогресс в методах оценки обученных представлений, а также в методах исследования того, что было изучено с помощью моделей.

Как обычно здесь, в Cogito, мы выбрали несколько статей с конференции этого года, чтобы дать вам представление о текущем состоянии исследований речи.

Бумажные моменты

О (не)эффективности экстракторов акустических характеристик для самостоятельного обучения речевому представлению

В этой статье исследователей из Samsung исследуются способы снижения неэффективности речевых представлений, усвоенных с помощью обучения с самоконтролем (SSL). Многие из этих моделей SSL (например, wav2vec 2.0) используют 1D-свертки, применяемые непосредственно к необработанному аудиосигналу в качестве начальных слоев. Авторы считают, что эти первоначальные сверточные слои являются одним из основных факторов, способствующих высоким требованиям к памяти и длительному времени обучения этих моделей. Они исследуют ряд альтернатив и обнаруживают, что могут сократить время обучения wav2vec 2.0 с 7 дней до 1,8 дней, просто используя наборы фильтров Mel с 2D-свертками. Показатели оценки сопоставимы с показателями, использующими необработанный сигнал. Результаты статьи делают эти модели SSL более подходящими для лабораторий, у которых может не быть бюджета более крупных учреждений.

Пространственная модель состояний с несколькими головками для распознавания речи

Эта статья исследователей из Кембриджа и Меты основана на модели Пространство структурированных состояний для моделирования последовательностей (S4) путем введения некоторых механизмов внимания в стиле преобразователя и применения ее к распознаванию речи. Эти модели на основе S4 обладают тем привлекательным свойством, что они могут работать как CNN во время обучения, но затем конвертироваться в эффективную RNN во время вывода. Предложенная ими архитектура Stateformer обеспечивает высочайшую производительность на Librispeech.

Прошу прощения за неразговорчивость: влияние неразговорчивости на восприятие компетентности и уверенности оратора

В этой статье исследователей из KTH авторы используют синтезированную речь, чтобы исследовать роль нарушений в восприятии компетентности, искренности и уверенности. Они обнаружили, что восприятие слушателями уверенности и компетентности снижалось по мере увеличения общего количества нарушений речи. Они проанализировали, как различные типы нарушений речи, в том числе заполненные паузы и повторы, влияют на оценки слушателей. Они обнаружили, что повторы, которые менее распространены в спонтанной речи, оказывают большее влияние на рейтинги компетентности и уверенности. Они также показали, что, если слушатели могут объяснить невнятность речи тревогой, влияние невнятности речи на рейтинги компетентности снижается.

LanSER: распознавание речевых эмоций с поддержкой языковой модели

В этой статье исследователей из KAIST и Google предлагается слабый метод контроля для распознавания речевых эмоций (SER). Авторы используют массивные речевые корпуса (Народная речь и Сжатые фильмы), не содержащие никаких SER-меток, пропускают их через ASR (с помощью Whisper), а затем используют LLM для генерации слабых SER-меток. Слабые метки затем используются для предварительного обучения модели SER ResNet, используя в качестве входных данных акустические характеристики. После предварительного обучения на слабых метках авторы исследуют использование различных объемов данных, размеченных вручную, для точной настройки модели. Результаты показывают убедительные улучшения в моделях, которые были предварительно обучены, по сравнению с теми, которые не были обучены, особенно когда доступно лишь небольшое количество данных, размеченных вручную.

Автоматическая оценка сигналов очередности при синтезе разговорной речи

В этой статье исследователей из KTH предлагается новая модель автоматической оценки систем преобразования текста в речь (TTS). Автоматическая оценка моделей TTS является общеизвестно сложной проблемой. В этой статье предлагается инструмент, который можно использовать для оценки естественности сигналов очередности, генерируемых системами TTS. Инструмент основан на недавно предложенной авторами модели Проекция голосовой активности (VAP), которая представляет собой модель пошагового прогнозирования, использующую в качестве входных данных необработанные звуковые сигналы. Модель VAP была продемонстрирована на сессии покажи и расскажи в этом году, и она дает впечатляющие прогнозы очередности действий. Для оценки систем TTS используется модель VAP для прогнозирования поведения очередности, генерируемого данной системой во время фраз, которые естественным образом либо удерживают ход, либо уступают ему. Выходные прогнозы модели сравниваются с ожидаемым поведением удержания/доходности для расчета различных показателей оценки. Авторы предоставляют интересную оценку нескольких коммерческих систем TTS и систем TTS с открытым исходным кодом.

Учет формальности речи в разных доменах и языках

В этой статье исследователей из Колумбийского и Эдинбургского университетов исследуется, насколько хорошо лингвистическое понятие формальности может быть обнаружено с помощью акустических и просодических элементов речи. Хотя концепция формальности хорошо изучена в письменной речи, она менее хорошо понимается в устной речи. Авторы проводят корреляционный анализ между установленными текстовыми мерами формальности и предлагаемыми просодическими (например, скоростью речи, паузами, дрожание, мерцание). Короче говоря, оказывается, что предсказать формальность, используя их просодические особенности, довольно сложно. Это был неожиданный результат для исследователей, которые пришли к выводу, что «нелексические индикаторы формальности речи могут быть более тонкими, чем наши первоначальные ожидания». Приятно видеть подобные статьи, в которых сообщается о неожиданно отрицательном результате.

TokenSplit: использование дискретных речевых представлений для прямого, уточненного и обусловленного транскриптом разделения и распознавания речи

В этой статье исследователей из Google представлена ​​модель, которая в первую очередь представляет собой модель разделения речи, но также может использовать ASR и TTS! Модель обучена решению двух основных задач: отделять и расшифровывать каждый источник речи и генерировать речь из текста. Модель использует две модели-предшественницы, w2v-BERT и SoundStream, для генерации дискретных фонетических и акустических представлений. Эти дискретные представления вычисляются для смешанного звука (два динамика), а также для исходного несмешанного звука динамика. Последовательная модель кодера-декодера на основе T5 обучена прогнозировать несмешанные токены, а также транскрипты на основе входных смешанных токенов и замаскированных версий транскриптов. Для генерации выходных сигналов декодер SoundStream используется для преобразования токенов SoundStream в аудио. Некоторые впечатляющие примеры разделенной речи и сгенерированного вывода TTS доступны здесь.

В следующем году…

Было здорово встретиться с таким количеством старых друзей и коллег на мероприятии в этом году. Мы надеемся увидеть всех снова в следующем году в Иерусалиме.