Оптимизация в машинном обучении (оптимизация гиперпараметров)

TL;DR:

Оптимизация имеет решающее значение в машинном обучении, особенно при настройке гиперпараметров. Настройка гиперпараметров направлена на поиск наилучшего сочетания параметров для повышения производительности модели. Обычно используются такие методы, как поиск по сетке, случайный поиск, байесовская оптимизация и генетические алгоритмы. Методы оптимизации можно разделить на детерминированные, стохастические, байесовские и метаэвристические методы. Детерминированные методы следуют фиксированным правилам, в то время как стохастические методы включают случайность. Байесовская оптимизация сочетает в себе вероятностные модели, а метаэвристические методы — стратегии высокого уровня. Понимание этих категорий помогает выбрать подходящие методы оптимизации, хотя возможны совпадения и смешанные подходы.

Что такое оптимизация в машинном обучении?

Оптимизация в машинном обучении относится к процессу поиска наилучшего набора параметров или конфигураций, которые минимизируют функцию затрат или потерь, максимизируя производительность или точность модели машинного обучения. Он включает в себя тонкую настройку различных компонентов модели для достижения наилучших возможных результатов.

В машинном обучении модели обучаются на данных, чтобы изучать закономерности и делать прогнозы. В процессе обучения используются методы оптимизации для настройки параметров или гиперпараметров модели, чтобы свести к минимуму несоответствие между прогнозами модели и фактическими целями в обучающих данных.

Оптимизация может происходить на разных этапах машинного обучения, включая предварительную обработку данных, выбор модели и настройку гиперпараметров. При предварительной обработке данных методы оптимизации используются для преобразования и очистки данных для повышения производительности модели. При выборе модели различные модели или архитектуры сравниваются и оптимизируются, чтобы определить лучшую для данной задачи. Настройка гиперпараметров включает в себя оптимизацию гиперпараметров, которые представляют собой настройки, которые не извлекаются из данных, а задаются до процесса обучения, такие как скорость обучения, сила регуляризации или количество скрытых единиц.

Общие алгоритмы оптимизации в машинном обучении включают методы на основе градиента, такие как градиентный спуск, который итеративно обновляет параметры модели на основе градиента функции потерь. Другие методы включают стохастический градиентный спуск, который использует случайные подмножества обучающих данных, и более продвинутые методы, такие как Adam или RMSprop, которые адаптируют скорость обучения во время обучения.

Целью оптимизации машинного обучения является улучшение производительности модели, повышение точности, уменьшение ошибок и обеспечение того, чтобы модель хорошо обобщала невидимые данные. Путем точной настройки параметров модели посредством оптимизации модели машинного обучения могут делать более точные прогнозы и эффективно решать широкий спектр задач в различных областях.

Классификация методов оптимизации

Классификация методов оптимизации может быть сложной задачей из-за разнообразия доступных алгоритмов и подходов. Однако принято классифицировать методы оптимизации по более широким категориям, чтобы обеспечить общее понимание их характеристик. Хотя могут существовать различные схемы классификации, большинство методов оптимизации можно разделить на четыре основные категории:

Методы детерминированной оптимизации:

Эти методы следуют фиксированным правилам или детерминированным алгоритмам для поиска оптимальных решений. Примеры включают:

Градиентные методы (например, градиентный спуск, сопряженный градиент, метод Ньютона)
Методы без производных (например, метод Нелдера-Мида, метод Пауэлла)
Методы внутренних точек

Методы стохастической оптимизации:

Эти методы включают случайность или вероятностные элементы в процессе поиска. Методы стохастической оптимизации используют вероятностные модели, выборку или другие методы рандомизации для исследования пространства поиска. Примеры включают:

Стохастические градиентные методы (например, стохастический градиентный спуск, Адам)
Стохастическая оптимизация в байесовской структуре (например, байесовская оптимизация с функциями сбора данных на основе выборки)
Методы Монте-Карло

Байесовские методы оптимизации:

Байесовская оптимизация объединяет вероятностные модели и байесовский вывод для поиска оптимального решения. Он включает в себя предыдущие убеждения или знания и обновляет их наблюдаемыми данными. Примеры включают:

Байесовская оптимизация на основе гауссовского процесса
Оценщики Парзена с древовидной структурой (TPE)
Последовательная оптимизация на основе моделей (SMBO)
Эффективная глобальная оптимизация (EGO)

Методы метаэвристической оптимизации:

Метаэвристические методы — это высокоуровневые стратегии или схемы, направляющие поиск оптимальных решений. Они не полагаются на конкретные математические модели или производную информацию. Метаэвристические методы включают в себя:

Генетические алгоритмы
Оптимизация роя частиц (PSO)
Имитация отжига
Оптимизация колонии муравьев (ACO)
Табу Поиск
Поиск гармонии

Хотя эти четыре категории обеспечивают полезную основу для понимания методов оптимизации, важно отметить, что возможны совпадения и гибридные подходы, объединяющие элементы из нескольких категорий. Кроме того, поскольку исследования в области оптимизации продолжают развиваться, разрабатываются новые методы и усовершенствования, расширяющие границы классификации.

Цитаты:

Сра, Суврит, Себастьян Новозин и Стивен Дж. Райт, ред. Оптимизация для машинного обучения. Мит Пресс, 2012.

Ле, Куок В. и др. «О методах оптимизации для глубокого обучения». Материалы 28-й международной конференции по машинному обучению. 2011.

Бюбек, Себастьян. «Выпуклая оптимизация: алгоритмы и сложность». Основы и тенденции® в машинном обучении 8.3–4 (2015): 231–357.

https://machinelearningmastery.com/tour-of-optimization-algorithms/

https://www.seldon.io/machine-learning-optimisation