Введение в машинное обучение в производственной серии

Введение в машинное обучение в производственной серии — Applied Data Augmentation 11

В этом уроке мы обсудим, как реализовать увеличение данных в сценарии реального времени. Мы можем начать с примера системы распознавания речи.

Как показано на рис. 1 ниже, рассмотрим голосовой сигнал «ИИ — это новое электричество» и различные шумы Общественная и фоновая музыка соответственно, применяемые для создания синтетических данных.

Создание синтетических данных

Вам нужно принять два решения

Насколько громким будет звук.
Подбор фоновой музыки

Каковы цели увеличения данных

Расширение данных применяется к ситуации, когда алгоритм работает не очень хорошо, но производительность на уровне человека работает хорошо. Рис-2

Ниже приведен Контрольный список, который необходимо проверить перед применением расширения данных.

Его следует применять к реалистичным категориям, и люди могут это распознать. Кроме того, алгоритм работает очень плохо в этой конкретной категории, что видно на рис. 3 и 4.

Пример увеличения данных

Предположим, вы хотите обнаружить Scratch в мобильном телефоне.

Первое фальшивое изображение создается путем инвертирования положения царапины, как показано ниже на рис. 5.

2. Второе изображение — добавление яркости, а последнее — темноты. Причина, по которой мы не делаем последнее изображение, потому что даже человек не может его распознать.

3. Другая возможность — создание поддельных изображений с другой структурой царапин, что можно сделать с помощью GAN или фотошопа, но нам следует избегать сложных алгоритмов.

Пожалуйста, обратите внимание, что, как мы описали в подходе, ориентированном на данные, когда модель фиксирована, и вы продолжаете улучшать качество данных для достижения требуемой производительности (используется метод увеличения данных).

Введение в машинное обучение в производственной серии — Applied Data Augmentation 11

Создание синтетических данных

Каковы цели увеличения данных

Пример увеличения данных

Вопросы по теме