В ходе проверки участия концепции на работе я работал над структурой, которая использовала обучение человека в цикле для преобразования речи в текстовые системы. Задача заключалась в преобразовании аудио в текст от носителей английского языка, у которых был характерный местный акцент. На разных этапах учебного процесса я понял, что вмешательство человека помогает обеспечить правильную обратную связь с механизмом S2T (речь в текст). Кроме того, это также помогло выявить ключевые пробелы и недостатки в работе модели. Делюсь своими размышлениями и надеюсь, что это будет интересно для бизнеса/сообщества ИИ, стремящегося использовать в своих инициативах обучение человека в цикле.

Бизнес-возможности

Речь является важной формой общения, которая генерирует много данных. Поскольку все больше систем предоставляют модальный интерфейс с речью, становится критически важным иметь возможность анализировать взаимодействие человека с компьютером. Интересные тенденции рынка отмечают, что голос — это будущее пользовательского интерфейса. Это утверждение теперь подкрепляется тем, что люди хотят использовать бесконтактные поверхности в связи с продолжающейся ситуацией с Covid-19.

Взаимодействия между агентами и клиентами в контакт-центре остаются темными данными, которые часто не используются. Возможность транскрибировать речь на местных диалектах/сленге должна быть включена в дорожную карту расширенной аналитики колл-центра, такую ​​как предложенная в этой рекомендации McKinsey. Для этого нам может понадобиться структура, которая может извлечь лучшее из текущего ландшафта транскрипции речи и представить его на согласованной платформе, которую предприятия могут использовать, чтобы получить преимущество в случаях использования адаптации речи к тексту.

В Сингапуре есть местный диалект, над которым ведется большая работа. Синглиш – это местная форма английского языка в Сингапуре, в которой смешаны слова, заимствованные из разных культур разных сообществ.

Предпринимаются усилия по расшифровке звонков, сделанных для расшифровки вызовов службы экстренной помощи в Силах гражданской обороны Сингапура (SCDF). AI Singapore запустила инициативу под названием Speech Lab, чтобы направить усилия в этом направлении. Благодаря выпуску Национального речевого корпуса IMDA местные разработчики ИИ теперь могут настраивать решения ИИ с помощью речевых данных с местным акцентом.

Национальный речевой корпус IMDA

Управление Infocomm Media Development Authority Сингапура выпустило большой набор данных, а именно:

• Речевой корпус из 3 частей, каждая из которых содержит 1000 часов записей фонетически сбалансированных сценариев примерно от 1000 местных носителей английского языка.

•Аудиозаписи со словами, описывающими людей, повседневную жизнь, еду, местоположение, бренды, обычно встречающиеся в Сингапуре. Они записываются в тихих комнатах с использованием комбинации микрофонов и мобильных телефонов, чтобы добавить акустического разнообразия.

• Имеет текстовые файлы, которые имеют стенограммы. Следует отметить некоторые термины в синглише, такие как «ar», «lor» и т. д.

Подобные инициативы являются наградой для сообщества открытого ИИ в ускорении усилий по адаптации речи. Благодаря таким усилиям местное сообщество ИИ и бизнес готовы к крупным прорывам в транскрипции синглиш в ближайшие годы.

Добавление настраиваемых фрагментов аудио от говорящих с местным акцентом повысило точность транскрипции речи с местным акцентом. Обзор роста представлен на графике ниже. Без какой-либо настройки набор задержек работал с точностью 73%. По мере добавления большего количества фрагментов данных, аннотированных человеком, мы можем еще больше повысить точность. Неизбежно будет наблюдаться какое-то плато.

Основное внимание в работе, в которой я участвовал, было не в достижении максимальной точности, а в определении направления обучения, которое может привести кривую к восходящей траектории.

Итак, как мы можем контролировать, действительно ли передача большего количества данных ИИ повышает точность? И как узнать, какие наборы данных нужно добавить?

Держать человека в курсе…

Концепция, быстро набирающая обороты в обучении ИИ, — обучение человека в цикле. Иллюстрация того, как выглядит человек в петле, приведена ниже.

Короче говоря, обучение человека в цикле дает ИИ правильную калибровку в соответствующие моменты. Модель ИИ начинает обучение для выполнения задачи, которая со временем может стабилизироваться. Своевременное вмешательство человека в этот цикл может дать модели правильный толчок.

Перенос обучения станет следующим фактором успеха машинного обучения, — Эндрю Нг в своем учебнике Системы обработки нейронной информации (NIPS) 2016.

Не у всех есть доступ к журналам колл-центра и записям разговоров, собранным у большинства местных жителей, которые являются одними из ключевых источников данных для обучения ИИ локализованной транскрипции речи. В отсутствие значительного объема данных с локальным акцентом и аннотациями, основанными на реальных данных, трансферное обучение может стать мощным стимулом для ускорения разработки ИИ.

При создании таких систем, использующих трансферное обучение, я понял, что необходимо также предоставить широкое пространство для обучения человека в цикле обучения.

Некоторыми ключевыми параметрами при построении таких систем могут быть следующие:

  • Модель преобразования речи в текст может быть любым механизмом ASR, который может работать в облаке или локально. Платформа может быть спроектирована так, чтобы быть независимой от используемой технологии ASR. Например, это может помочь подключиться к основным Azure/AWS/Google, а также к проектам с открытым исходным кодом, таким как Mozilla DeepSpeech. Наличие системы показателей, при которой точность каждого механизма S2T измеряется в таблице лидеров, может помочь в развертывании лучшей версии для варианта использования.
  • Разрешить пользователям искать фрагменты достоверной информации. Во многих случаях, когда результат доступен, быстрый поиск записей обучения может указать количество обученных записей и т. д. Это может помочь в поиске того, какие слова есть в корпусе и сколько словарного запаса было обучено. Это может быть довольно интуитивно понятным, но сегодня многие поставщики S2T часто упускают его из виду.
  • Возможность разбивки по частоте ошибок в словах: отраслевой стандарт для измерения систем автоматического распознавания речи (ASR) основан на частоте ошибок в словах, определяемой следующим образом.

где S относится к количеству замененных слов, D относится к количеству удаленных слов, а I относится к количеству слов, вставленных механизмом ASR.

Простой пример, иллюстрирующий это, приведен ниже, где имеется 1 делеция, 1 вставка и 1 замена в общей сложности из 5 слов в транскрипте, меченном человеком.

Итак, WER этого результата будет 3/5, что равно 0,6. Большинство механизмов ASR будут возвращать общие числа WER, а некоторые могут возвращать разделение между вставками, удалениями и заменами.

Минимальные компоненты для использования обучения человека в цикле – это набор исходного текста и текста результатов транскрипции для проведения анализа коэффициента ошибок в словах. Если доступны соответствующие аудиофрагменты, можно также проверить качество звука и собрать больше обучающего звука в этом направлении.

Однако, чтобы полностью понять производительность механизмов S2T, потребуется структура, обеспечивающая подробное разделение между вставками, заменами и удалениями. Кроме того, мы также можем разрешить комментаторам-людям добавлять аудиофайлы с соответствующими помеченными транскрипциями для дополнения данных.

С помощью этой структуры можно широко контролировать процесс обучения на различных этапах.

  1. Прием данных: с помощью проводника поиска можно отслеживать, на каком словаре обучалась модель, и какие дополнительные данные собирать.
  2. Интерпретируемость модели. Более глубокое понимание WER позволяет напрямую выявить пробелы в производительности модели. Например, в контексте синглиша Сингапур очень известен своей системой MRT. Одна ошибка обучения, которую мы постоянно обнаруживали при использовании систем S2T, основанных на американском английском, заключалась в том, что MRT постоянно заменяли на «MIT». Корректирующее действие может быть предписано в виде разрешения большего количества аудиофрагментов MRT или добавления слоя постобработки речи, который может принимать текстовый контекст. Вынесение этого суждения и есть красота любого процесса обучения ИИ!
  3. Выбор модели. Рекомендуется начать с переноса обучения, выполнить циклы из шагов 1–2, описанных выше, чтобы лучше понять вариант использования, а затем перейти к настройке правильных параметров.

Несмотря на то, что суть любой системы «человек-в-цикле» заключается в том, чтобы учитывать влияние человека на модель, ключевое решение по-прежнему необходимо принять, что такое «подталкивание». Это обучение — небольшой шаг, помогающий решить эту проблему в контексте систем S2T.

Ссылки и полезные ссылки

  1. https://yourstory.com/2019/03/why-voice-is-the-future-of-user-interfaces-1z2ue7nq80?utm_pageloadtype=scroll
  2. https://www.mckinsey.com/business-functions/operations/our-insights/how-advanced-analytics-can-help-contact-centers-put-the-customer-first
  3. https://www.straitstimes.com/singapore/automated-system-transcribing-995-calls-may-also-recognise-singlish-shanmugam
  4. https://www.aisingapore.org/2018/07/ai-singapore-harnesses-advanced-speech-technology-to-help-organisations-improve-frontline-operations/
  5. https://livebook.manning.com/book/human-in-the-loop-machine-learning/chapter-1/v-6/17
  6. https://www.youtube.com/watch?v=F1ka6a13S9I
  7. https://ruder.io/transfer-learning/
  8. https://www.imda.gov.sg/programme-listing/digital-services-lab/national-speech-corpus