Оптимизация является важным инструментом для минимизации ошибок, затрат или потерь при подборе алгоритма машинного обучения. Одной из ключевых задач оптимизатора является поиск подходящей скорости обучения, которая важна для скорости сходимости и точности конечных результатов.

Несмотря на хорошую производительность некоторых оптимизированных вручную оптимизаторов, эти подходы обычно требуют огромного опыта экспертов, а также напряженных усилий. Поэтому «безпараметрические» методы адаптивной скорости обучения, популяризированные методом D-Adaptation, в последние годы набирают популярность для оптимизации без скорости обучения.

Чтобы еще больше усовершенствовать метод D-адаптации, в новой статье Prodigy: быстро адаптирующееся обучение без параметров исследовательская группа из Samsung AI Center и Meta AI представляет две новые модификации, Prodigy и Resetting, для улучшить скорость неасимптотической сходимости метода D-Adaptation в наихудшем случае, достигая более высоких скоростей сходимости и лучших результатов оптимизации.

В волшебном подходе команда улучшает D-адаптацию, изменяя ее член ошибки с размерами шага, подобными Adagrad. Таким образом, исследователи имеют доказуемо больший размер шага при сохранении основного члена ошибки, что приводит к более высокой скорости сходимости модифицированного алгоритма. Они также помещают дополнительный вес рядом с градиентами на случай, если алгоритм станет медленным, когда знаменатель размера шага со временем станет слишком большим.

Затем команда обнаружила неприятный факт: скорость сходимости для варианта Prodigy с градиентным спуском хуже, чем для двойного усреднения. Чтобы исправить это, при подходе к сбросу команда сбрасывает процесс двойного усреднения всякий раз, когда текущая оценка градиента увеличивается более чем в раз…