В этом уроке мы обсудим, как реализовать увеличение данных в сценарии реального времени. Мы можем начать с примера системы распознавания речи.

Как показано на рис. 1 ниже, рассмотрим голосовой сигнал «ИИ — это новое электричество» и различные шумы Общественная и фоновая музыка соответственно, применяемые для создания синтетических данных.

Создание синтетических данных

Вам нужно принять два решения

  1. Насколько громким будет звук.
  2. Подбор фоновой музыки

Каковы цели увеличения данных

Расширение данных применяется к ситуации, когда алгоритм работает не очень хорошо, но производительность на уровне человека работает хорошо. Рис-2

Ниже приведен Контрольный список, который необходимо проверить перед применением расширения данных.

Его следует применять к реалистичным категориям, и люди могут это распознать. Кроме того, алгоритм работает очень плохо в этой конкретной категории, что видно на рис. 3 и 4.

Пример увеличения данных

Предположим, вы хотите обнаружить Scratch в мобильном телефоне.

  1. Первое фальшивое изображение создается путем инвертирования положения царапины, как показано ниже на рис. 5.

2. Второе изображение — добавление яркости, а последнее — темноты. Причина, по которой мы не делаем последнее изображение, потому что даже человек не может его распознать.

3. Другая возможность — создание поддельных изображений с другой структурой царапин, что можно сделать с помощью GAN или фотошопа, но нам следует избегать сложных алгоритмов.

Пожалуйста, обратите внимание, что, как мы описали в подходе, ориентированном на данные, когда модель фиксирована, и вы продолжаете улучшать качество данных для достижения требуемой производительности (используется метод увеличения данных).