В этом уроке мы обсудим увеличение данных, в каких случаях это снижает производительность?

Сценарий

Давайте рассмотрим случай, когда мы построили большую модель с отображением неструктурированных данных от ввода к выводу, это нормально, и добавление данных редко снижает производительность в этом случае, как показано на рис. 1 ниже.

Пример

Давайте рассмотрим пример системы распознавания речи, где у нас есть шум кафе, который составляет 30 процентов данных, и мы увеличиваем его до 50 процентов. В этом случае добавление данных не влияет на другие данные, не относящиеся к кафе, поскольку модель уже большая. Может быть случай, когда отображение становится неясным. В этом сценарии добавление данных может снизить производительность. На рис. 2 показан пример.

Рассмотрим систему распознавания символов, в которой первым символом является 1 непосредственный I, а последним — неоднозначный 1 или I.

В случае 1, прежде чем добавлять примеры большего количества I в набор, может быть, у нас было больше единиц до этого, поэтому неоднозначный пример в этом случае будет предсказан как 1. Но с увеличением данных можно предсказать как I. Иллюстрация показана ниже