Самоконтролируемое обучение (SSL) — довольно популярный метод предварительного обучения для разрешения наборов данных с дефицитом меток и получения высокой производительности модели. В парадигме предварительного обучения и тонкой настройки производительность модели можно улучшить. В литературе по моделированию маскированных изображений (MIM), методу SSL, заключающемуся в рисовании маскированных путей во входных изображениях, предварительно обученная модель может обеспечить более высокую производительность и лучшую переносимость для различных последующих задач.

В большинстве статей MIM модель предварительно обучается в ImageNet, наборе данных, содержащем более 1 миллиона изображений, что требует довольно много ресурсов. Возможно ли, что MIM также работает для небольшого набора данных, скажем, нескольких тысяч изображений?

Бесплатного обеда не существует. Как говорится в Рассуждении Ильи о Наблюдении об обобщении, интеллект возникает от сжатия. Для модели с определенной емкостью, чем больше данных она сможет успешно изучить (сжать), тем более умной она будет. Проблема заключается в том, что если в модель подаются бесконечные данные, может произойти недостаточная подгонка, поэтому следует учитывать компромисс между объемом данных и емкостью модели. Но что следует учитывать больше: как спроектировать саму модель для более эффективного и надлежащего сжатия больших наборов данных; как подготовить наборы данных, чтобы они лучше соответствовали индуктивным смещениям модели, чтобы можно было сжать больше данных. Большой объем обучающих данных необходим для интеллектуального моделирования высокого уровня.

MIM против контрастного обучения (CL)

Контрастное обучение (CL) — альтернатива MIM в SSL. CL основан на дополнении данных (DA). Наиболее популярными из них являются цветовое дрожание и размытие по Гауссу. Однако библиотеки DA на основе цвета, например. PIL, ограничьте реализацию изображениями RGB с 8 битами на цвет. Вам придется полагаться на себя в отношении изображений с разными битами. Кроме того, сложно разработать эффективные методы DA для других модальностей, например. речь, текст. Однако MIM универсален для различных модальностей, при которых все, что вам нужно сделать, — это маскирование.

В целом CL мог бы лучше изучить скрытую семантику для последующих задач. Это главным образом потому, что во время DA CL распределение данных сильно меняется, что позволяет модели согласовывать два скрытых признака из совершенно разных входных распределений. Этот сложный…