В ходе проверки участия концепции на работе я работал над структурой, которая использовала обучение человека в цикле для преобразования речи в текстовые системы. Задача заключалась в преобразовании аудио в текст от носителей английского языка, у которых был характерный местный акцент. На разных этапах учебного процесса я понял, что вмешательство человека помогает обеспечить правильную обратную связь с механизмом S2T (речь в текст). Кроме того, это также помогло выявить ключевые пробелы и недостатки в работе модели. Делюсь своими размышлениями и надеюсь, что это будет интересно для бизнеса/сообщества ИИ, стремящегося использовать в своих инициативах обучение человека в цикле.
Бизнес-возможности
Речь является важной формой общения, которая генерирует много данных. Поскольку все больше систем предоставляют модальный интерфейс с речью, становится критически важным иметь возможность анализировать взаимодействие человека с компьютером. Интересные тенденции рынка отмечают, что голос — это будущее пользовательского интерфейса. Это утверждение теперь подкрепляется тем, что люди хотят использовать бесконтактные поверхности в связи с продолжающейся ситуацией с Covid-19.
Взаимодействия между агентами и клиентами в контакт-центре остаются темными данными, которые часто не используются. Возможность транскрибировать речь на местных диалектах/сленге должна быть включена в дорожную карту расширенной аналитики колл-центра, такую как предложенная в этой рекомендации McKinsey. Для этого нам может понадобиться структура, которая может извлечь лучшее из текущего ландшафта транскрипции речи и представить его на согласованной платформе, которую предприятия могут использовать, чтобы получить преимущество в случаях использования адаптации речи к тексту.
В Сингапуре есть местный диалект, над которым ведется большая работа. Синглиш – это местная форма английского языка в Сингапуре, в которой смешаны слова, заимствованные из разных культур разных сообществ.
Предпринимаются усилия по расшифровке звонков, сделанных для расшифровки вызовов службы экстренной помощи в Силах гражданской обороны Сингапура (SCDF). AI Singapore запустила инициативу под названием Speech Lab, чтобы направить усилия в этом направлении. Благодаря выпуску Национального речевого корпуса IMDA местные разработчики ИИ теперь могут настраивать решения ИИ с помощью речевых данных с местным акцентом.
Национальный речевой корпус IMDA
Управление Infocomm Media Development Authority Сингапура выпустило большой набор данных, а именно:
• Речевой корпус из 3 частей, каждая из которых содержит 1000 часов записей фонетически сбалансированных сценариев примерно от 1000 местных носителей английского языка.
•Аудиозаписи со словами, описывающими людей, повседневную жизнь, еду, местоположение, бренды, обычно встречающиеся в Сингапуре. Они записываются в тихих комнатах с использованием комбинации микрофонов и мобильных телефонов, чтобы добавить акустического разнообразия.
• Имеет текстовые файлы, которые имеют стенограммы. Следует отметить некоторые термины в синглише, такие как «ar», «lor» и т. д.
Подобные инициативы являются наградой для сообщества открытого ИИ в ускорении усилий по адаптации речи. Благодаря таким усилиям местное сообщество ИИ и бизнес готовы к крупным прорывам в транскрипции синглиш в ближайшие годы.
Добавление настраиваемых фрагментов аудио от говорящих с местным акцентом повысило точность транскрипции речи с местным акцентом. Обзор роста представлен на графике ниже. Без какой-либо настройки набор задержек работал с точностью 73%. По мере добавления большего количества фрагментов данных, аннотированных человеком, мы можем еще больше повысить точность. Неизбежно будет наблюдаться какое-то плато.
Основное внимание в работе, в которой я участвовал, было не в достижении максимальной точности, а в определении направления обучения, которое может привести кривую к восходящей траектории.
Итак, как мы можем контролировать, действительно ли передача большего количества данных ИИ повышает точность? И как узнать, какие наборы данных нужно добавить?
Держать человека в курсе…
Концепция, быстро набирающая обороты в обучении ИИ, — обучение человека в цикле. Иллюстрация того, как выглядит человек в петле, приведена ниже.
Короче говоря, обучение человека в цикле дает ИИ правильную калибровку в соответствующие моменты. Модель ИИ начинает обучение для выполнения задачи, которая со временем может стабилизироваться. Своевременное вмешательство человека в этот цикл может дать модели правильный толчок.
Перенос обучения станет следующим фактором успеха машинного обучения, — Эндрю Нг в своем учебнике Системы обработки нейронной информации (NIPS) 2016.
Не у всех есть доступ к журналам колл-центра и записям разговоров, собранным у большинства местных жителей, которые являются одними из ключевых источников данных для обучения ИИ локализованной транскрипции речи. В отсутствие значительного объема данных с локальным акцентом и аннотациями, основанными на реальных данных, трансферное обучение может стать мощным стимулом для ускорения разработки ИИ.
При создании таких систем, использующих трансферное обучение, я понял, что необходимо также предоставить широкое пространство для обучения человека в цикле обучения.
Некоторыми ключевыми параметрами при построении таких систем могут быть следующие:
- Модель преобразования речи в текст может быть любым механизмом ASR, который может работать в облаке или локально. Платформа может быть спроектирована так, чтобы быть независимой от используемой технологии ASR. Например, это может помочь подключиться к основным Azure/AWS/Google, а также к проектам с открытым исходным кодом, таким как Mozilla DeepSpeech. Наличие системы показателей, при которой точность каждого механизма S2T измеряется в таблице лидеров, может помочь в развертывании лучшей версии для варианта использования.
- Разрешить пользователям искать фрагменты достоверной информации. Во многих случаях, когда результат доступен, быстрый поиск записей обучения может указать количество обученных записей и т. д. Это может помочь в поиске того, какие слова есть в корпусе и сколько словарного запаса было обучено. Это может быть довольно интуитивно понятным, но сегодня многие поставщики S2T часто упускают его из виду.
- Возможность разбивки по частоте ошибок в словах: отраслевой стандарт для измерения систем автоматического распознавания речи (ASR) основан на частоте ошибок в словах, определяемой следующим образом.
где S относится к количеству замененных слов, D относится к количеству удаленных слов, а I относится к количеству слов, вставленных механизмом ASR.
Простой пример, иллюстрирующий это, приведен ниже, где имеется 1 делеция, 1 вставка и 1 замена в общей сложности из 5 слов в транскрипте, меченном человеком.
Итак, WER этого результата будет 3/5, что равно 0,6. Большинство механизмов ASR будут возвращать общие числа WER, а некоторые могут возвращать разделение между вставками, удалениями и заменами.
Минимальные компоненты для использования обучения человека в цикле – это набор исходного текста и текста результатов транскрипции для проведения анализа коэффициента ошибок в словах. Если доступны соответствующие аудиофрагменты, можно также проверить качество звука и собрать больше обучающего звука в этом направлении.
Однако, чтобы полностью понять производительность механизмов S2T, потребуется структура, обеспечивающая подробное разделение между вставками, заменами и удалениями. Кроме того, мы также можем разрешить комментаторам-людям добавлять аудиофайлы с соответствующими помеченными транскрипциями для дополнения данных.
С помощью этой структуры можно широко контролировать процесс обучения на различных этапах.
- Прием данных: с помощью проводника поиска можно отслеживать, на каком словаре обучалась модель, и какие дополнительные данные собирать.
- Интерпретируемость модели. Более глубокое понимание WER позволяет напрямую выявить пробелы в производительности модели. Например, в контексте синглиша Сингапур очень известен своей системой MRT. Одна ошибка обучения, которую мы постоянно обнаруживали при использовании систем S2T, основанных на американском английском, заключалась в том, что MRT постоянно заменяли на «MIT». Корректирующее действие может быть предписано в виде разрешения большего количества аудиофрагментов MRT или добавления слоя постобработки речи, который может принимать текстовый контекст. Вынесение этого суждения и есть красота любого процесса обучения ИИ!
- Выбор модели. Рекомендуется начать с переноса обучения, выполнить циклы из шагов 1–2, описанных выше, чтобы лучше понять вариант использования, а затем перейти к настройке правильных параметров.
Несмотря на то, что суть любой системы «человек-в-цикле» заключается в том, чтобы учитывать влияние человека на модель, ключевое решение по-прежнему необходимо принять, что такое «подталкивание». Это обучение — небольшой шаг, помогающий решить эту проблему в контексте систем S2T.
Ссылки и полезные ссылки
- https://yourstory.com/2019/03/why-voice-is-the-future-of-user-interfaces-1z2ue7nq80?utm_pageloadtype=scroll
- https://www.mckinsey.com/business-functions/operations/our-insights/how-advanced-analytics-can-help-contact-centers-put-the-customer-first
- https://www.straitstimes.com/singapore/automated-system-transcribing-995-calls-may-also-recognise-singlish-shanmugam
- https://www.aisingapore.org/2018/07/ai-singapore-harnesses-advanced-speech-technology-to-help-organisations-improve-frontline-operations/
- https://livebook.manning.com/book/human-in-the-loop-machine-learning/chapter-1/v-6/17
- https://www.youtube.com/watch?v=F1ka6a13S9I
- https://ruder.io/transfer-learning/
- https://www.imda.gov.sg/programme-listing/digital-services-lab/national-speech-corpus