Подготовка к собеседованию по ML: Часть I: Основы

Этот кураторский список тем основан на основных концепциях машинного обучения, которые часто задают во время интервью MLE/MLS.

[Это часть I из трех частей Обновление интервью ML]

Контролируемый против неконтролируемого против подкрепления

Обучение с учителем использует размеченные данные для обучения на известных примерах, обучение без учителя выявляет закономерности и структуры в неразмеченных данных, а обучение с подкреплением фокусируется на обучении посредством взаимодействия с окружающей средой для получения максимального вознаграждения. Каждый из этих подходов к обучению служит разным целям и имеет различные применения в машинном обучении и искусственном интеллекте.

Обучение под наблюдением:

Обучение с учителем — это подход к машинному обучению, при котором алгоритм учится на размеченных обучающих данных. В этом типе обучения набор обучающих данных состоит из входных признаков (также известных как независимые переменные) и соответствующих им выходных меток (также известных как зависимые переменные или цели). Цель состоит в том, чтобы изучить функцию, которая точно отображает входные объекты в выходные метки. Алгоритм «контролируется», потому что во время обучения он получает правильные ответы, что позволяет ему делать прогнозы или классифицировать невидимые данные. Примеры алгоритмов обучения с учителем включают: линейную регрессию, деревья решений, машины опорных векторов.

Пример. Предположим, у вас есть набор данных электронных писем, и каждое письмо помечено как "спам" или "не спам". При обучении с учителем вы будете обучать модель, используя этот помеченный набор данных. Входными функциями могут быть различные атрибуты электронной почты (например, отправитель, тема, текст), а выходными метками могут быть «спам» или «не спам». Цель состоит в том, чтобы изучить функцию, которая может точно классифицировать новые, невидимые электронные письма как спам или не спам. Модель учится на помеченных примерах в обучающих данных, чтобы делать прогнозы для новых немаркированных электронных писем. Для этой задачи в контролируемом обучении можно использовать такие алгоритмы, как логистическая регрессия или случайные леса.

Неконтролируемое обучение:

С другой стороны, неконтролируемое обучение имеет дело с немаркированными данными, где набор обучающих данных содержит только входные функции без каких-либо соответствующих выходных меток. Целью неконтролируемого обучения является обнаружение значимых закономерностей, структур или взаимосвязей в данных. Алгоритмы в неконтролируемом обучении направлены на группирование похожих точек данных вместе или поиск скрытых представлений, которые фиксируют основные характеристики данных. В отличие от обучения с учителем, здесь не даются достоверные или правильные ответы, а алгоритм исследует данные без предварительных знаний. Общие алгоритмы обучения без учителя включают: методы кластеризации, такие как k-средние и иерархическая кластеризация, методы уменьшения размерности, такие как анализ основных компонентов (PCA) и t-SNE.

Пример. Давайте рассмотрим пример, в котором у вас есть набор данных о покупательском поведении клиентов. Этот набор данных состоит из атрибутов клиентов, таких как возраст, пол и история покупок, но без каких-либо конкретных меток. При неконтролируемом обучении вы можете использовать алгоритмы кластеризации для группировки похожих клиентов на основе их атрибутов. Например, при использовании такого алгоритма, как кластеризация k-средних, данные могут естественным образом образовывать отдельные кластеры, предполагающие разные сегменты клиентов. Это позволяет вам получить представление о базовых шаблонах и структуре данных без каких-либо предопределенных меток.

Обучение с подкреплением:

Обучение с подкреплением — это тип машинного обучения, в котором агент учится взаимодействовать с окружающей средой, чтобы максимизировать совокупное вознаграждение. Он основан на концепции обучения методом проб и ошибок. При обучении с подкреплением агент учится, совершая действия в окружающей среде и получая обратную связь в виде вознаграждения или наказания. Цель агента — изучить оптимальную политику — набор действий, которые максимизируют совокупное вознаграждение с течением времени. Обучение с подкреплением обычно используется в сценариях, где агенту необходимо принимать последовательные решения, например, в робототехнике, играх и автономном вождении. Алгоритмы обучения с подкреплением включают: Q-обучение, методы градиента политики и глубокое обучение с подкреплением с помощью нейронных сетей.

Пример. Представьте себе сценарий автономного вождения, в котором агенту (например, беспилотному автомобилю) необходимо научиться перемещаться по дороге без каких-либо предварительных знаний. При обучении с подкреплением агент взаимодействует с окружающей средой (дорогой) и получает обратную связь в виде вознаграждения или наказания. Например, агент получает положительное вознаграждение, когда остается на дороге и благополучно достигает пункта назначения, и получает отрицательное вознаграждение или штраф, когда отклоняется от дороги или попадает в аварию. Цель агента — изучить оптимальную политику — набор действий, который максимизирует совокупное вознаграждение с течением времени. Путем проб и ошибок агент исследует различные действия (ускорение, торможение, поворот и т. д.) и узнает, какие действия приводят к лучшим результатам с точки зрения вознаграждения. Алгоритмы обучения с подкреплением, такие как Q-обучение или глубокое обучение с подкреплением с помощью нейронных сетей, могут использоваться для обучения агента в этом сценарии.

Этапы конвейера машинного обучения

Конвейер машинного обучения обычно включает несколько ключевых шагов для перехода от необработанных данных к обученной модели, которая может делать прогнозы. Вот основные этапы типичного конвейера машинного обучения:

1. Сбор данных. Первым шагом является сбор соответствующих данных, необходимых для обучения модели. Это может включать сбор данных из различных источников, таких как базы данных, API или внешние наборы данных.

2. Предварительная обработка данных. После сбора данных их необходимо предварительно обработать, чтобы обеспечить их качество и совместимость с алгоритмами обучения. Этот шаг включает в себя такие задачи, как очистка данных, обработка пропущенных значений, работа с выбросами, а также нормализация или масштабирование данных.

3. Разработка признаков. Разработка признаков включает в себя преобразование необработанных данных в набор функций, которые могут использоваться алгоритмом машинного обучения. Этот шаг может включать в себя такие задачи, как выбор соответствующих функций, создание новых функций, кодирование категориальных переменных и масштабирование или преобразование функций.

4. Разделение данных. Набор данных разделен на обучающие и тестовые подмножества. Обучающий набор используется для обучения модели, а тестовый набор используется для оценки ее производительности. Для настройки гиперпараметров и выбора модели можно создавать дополнительные поднаборы, например наборы для проверки.

5. Выбор модели. Этот шаг включает в себя выбор подходящей модели или алгоритма для обучения данным. Выбор зависит от типа задачи (классификация, регрессия и т. д.), доступных данных и других факторов, таких как интерпретируемость, вычислительная эффективность и масштабируемость.

6. Обучение модели: выбранная модель обучается на обучающих данных, где она изучает закономерности и взаимосвязи между входными функциями и целевой переменной. Процесс обучения включает в себя настройку параметров или весов модели с использованием алгоритмов оптимизации, чтобы минимизировать ошибку или максимизировать вероятность обучающих данных.

7. Оценка модели. Обученная модель оценивается на тестовом наборе для оценки ее производительности и способности к обобщению. Показатели оценки, такие как точность, воспроизводимость, полнота, оценка F1 или среднеквадратическая ошибка, используются для измерения производительности модели.

8. Оптимизация модели. Если производительность модели неудовлетворительна, можно применить методы оптимизации. Это включает в себя настройку гиперпараметров, настройку методов регуляризации, пробу различных комбинаций функций или применение ансамблевых методов для повышения производительности модели.

9. Развертывание модели. После того, как модель обучена и оценена, ее можно развернуть для прогнозирования новых, невидимых данных. Это может включать создание приложения или интеграцию модели в существующую систему.

10. Мониторинг и обслуживание модели. После развертывания необходимо отслеживать и поддерживать производительность модели. Это может включать периодическое переобучение модели новыми данными, обновление модели новыми функциями или изменениями в распределении данных, а также решение таких проблем, как дрейф концепции или распад модели.

Эти шаги образуют общую структуру конвейера машинного обучения, но конкретная реализация может варьироваться в зависимости от проблемы, данных и выбранных алгоритмов и инструментов.

Генеративные модели:

Генеративные модели нацелены на моделирование основного распределения вероятностей входных данных. Они изучают совместное распределение вероятностей входных признаков и соответствующих выходных меток (если они доступны). Другими словами, генеративные модели пытаются понять, как генерируются данные, и фиксируют базовые шаблоны и зависимости между функциями. Как только модель изучила распределение, она может генерировать новые выборки, которые напоминают исходные данные. Некоторые примеры генеративных моделей включают: гауссовские смешанные модели (GMM), скрытые марковские модели (HMM), вариационные автоэнкодеры (VAE). Генеративные модели можно использовать для таких задач, как синтез данных, дополнение данных и обнаружение аномалий.

В генеративных моделях мы стремимся смоделировать совместное распределение вероятностей входных признаков, обозначенных как X, и соответствующих выходных меток, обозначенных как Y. Цель состоит в том, чтобы оценить это совместное распределение и изучить основные закономерности и зависимости между X и Y. .

Математически это можно представить как P(X, Y). Используя теорему Байеса, мы можем выразить совместное распределение как: P(X, Y) = P(Y) * P(X | Y), где P(Y) представляет априорную вероятность Y, а P(X | Y ) представляет условную вероятность X при заданном Y. Генеративные модели изучают как априорное распределение вероятностей P (Y), так и условное распределение вероятностей P (X | Y).

Дискриминационные модели:

Дискриминативные модели сосредоточены на изучении границы или границы решения, которая разделяет разные классы или категории. Они изучают условное распределение вероятностей выходных меток с учетом входных признаков. Другими словами, дискриминационные модели нацелены на непосредственное моделирование границы решения, которая различает разные классы. Они сосредоточены на функциях, которые наиболее важны для прогнозирования и классификации новых экземпляров. Некоторые примеры дискриминационных моделей включают: логистическую регрессию, машины опорных векторов (SVM), глубокие нейронные сети (DNN). Дискриминативные модели обычно используются для таких задач, как классификация, регрессия и распознавание объектов.

В дискриминационных моделях мы фокусируемся на изучении условного распределения вероятностей выходных меток Y с учетом входных признаков X, обозначаемых как P (Y | X). Цель состоит в том, чтобы напрямую смоделировать это условное распределение и изучить границу решения, которая разделяет разные классы.

Одним из примеров дискриминационной модели является логистическая регрессия, условная вероятность может быть представлена как: P (Y | X) = сигмоид (W * X + b), здесь W представляет весовые параметры, X представляет входные признаки, b представляет член смещения, sigmoid() — это сигмовидная функция, которая отображает линейную комбинацию признаков в значение вероятности от 0 до 1.

Генеративный против Дискриминативного

Генеративные модели сосредоточены на понимании и моделировании основного распределения вероятностей данных, в то время как дискриминационные модели концентрируются на изучении границы принятия решений между различными классами. Выбор между двумя подходами зависит от конкретной проблемы и желаемого приложения.

Различия между генеративной и дискриминационной моделями:

Задача:
Генеративные модели нацелены на понимание и моделирование совместного распределения входных признаков и выходных меток, в то время как дискриминационные модели фокусируются на моделировании условного распределения выходных меток с учетом входных признаков.
Представление:
Генеративные модели нацелены на моделирование совместного распределения вероятностей P(X, Y), в то время как дискриминационные модели фокусируются на условном распределении вероятностей P(Y | X).
Генерация данных и граница принятия решения.
Генеративные модели нацелены на то, чтобы понять процесс генерации данных и зафиксировать базовые шаблоны и зависимости между X и Y. Изучая все распределение вероятностей, генеративные модели способны генерировать новые выборки, которые напоминают исходные данные.
- Дискриминативные модели, с другой стороны, напрямую изучают границу решения, которая разделяет разные классы или категории, без явного создания новых выборок.
Варианты использования:
– генеративные модели полезны в задачах, в которых важно понимание основного распределения данных и создание новых выборок данных, таких как синтез данных или обнаружение аномалий.
– дискриминационные модели чаще используются в задачах, которые включают в себя классификацию, регрессию или принятие решений, где основной целью является точное предсказание выходной метки.
Обучение.
Генеративные модели обычно включают оценку совместного распределения вероятностей, что может быть более сложным и дорогостоящим в вычислительном отношении. Генеративные модели оценивают как априорную вероятность P(Y), так и условную вероятность P(X | Y).
. Дискриминационные модели, с другой стороны, непосредственно оценивают условное распределение вероятностей, которое часто проще и эффективнее. Использование вероятностных распределений. Дискриминативные модели напрямую оценивают условную вероятность P(Y | X).

Смещение дисперсии Компромисс

Компромисс смещения и дисперсии представляет собой компромисс между ошибками смещения и дисперсии в моделях машинного обучения. В нем подчеркивается необходимость найти баланс между простотой и сложностью для достижения хороших результатов обобщения.

Компромисс между смещением и дисперсией — это фундаментальная концепция машинного обучения, связанная с общей прогностической эффективностью модели. Он представляет собой баланс между двумя типами ошибок, которые может допустить модель: ошибкой смещения и ошибкой дисперсии.

Ошибка смещения: смещение относится к упрощающим предположениям, сделанным моделью, чтобы упростить изучение целевой функции. Модель с высоким смещением имеет тенденцию чрезмерно упрощать основные закономерности в данных и делать сильные предположения о взаимосвязях между функциями и целевой переменной. Следовательно, он может постоянно недооценивать обучающие данные и испытывать трудности с захватом сложных взаимосвязей или изменений в данных. Большое смещение приводит к высокой ошибке обучения.
Ошибка дисперсии: дисперсия относится к количеству колебаний или нестабильности в прогнозах модели, вызванных небольшими изменениями в обучающих данных. Модель с высокой дисперсией слишком сложна и чувствительна к шуму или случайности в обучающих данных. Такая модель, как правило, очень точно соответствует обучающим данным, но не может хорошо обобщить невидимые данные. Высокая дисперсия приводит к высокой ошибке тестирования или плохому обобщению.

Компромисс смещения и дисперсии можно визуализировать следующим образом:

Для достижения хороших прогностических характеристик модель должна обеспечивать правильный баланс между смещением и дисперсией. В общем:

По мере того, как мы уменьшаем предвзятость (делаем модель более сложной и гибкой), модель лучше подходит к обучающим данным, уменьшая ошибку обучения. Однако это часто увеличивает дисперсию, делая модель чрезмерно чувствительной к обучающим данным и приводя к более высокой ошибке тестирования.

По мере того, как мы увеличиваем смещение (упрощаем модель), модель становится менее чувствительной к конкретным деталям обучающих данных, уменьшая дисперсию. Однако это может увеличить ошибку смещения, в результате чего модель не соответствует данным обучения и приведет к более высоким ошибкам обучения и тестирования.

Цель состоит в том, чтобы найти оптимальную точку компромисса, которая сводит к минимуму общую ошибку в невидимых данных, уравновешивая способность фиксировать сложные закономерности без переобучения обучающих данных. Часто это достигается с помощью таких методов, как регуляризация, перекрестная проверка и выбор модели.

Регуляризация

Регуляризация — это метод машинного обучения, который помогает предотвратить переоснащение и повышает эффективность обобщения моделей. Он включает в себя добавление члена регуляризации к функции потерь во время обучения, который наказывает определенные характеристики модели, чтобы способствовать простоте и уменьшить влияние зашумленных или нерелевантных функций. Это, в свою очередь, побуждает модель иметь более простые или плавные решения.

Учитывая функцию потерь J, регуляризованная функция потерь J_reg определяется как:

J_reg = J + α * R (ш)

J представляет исходную функцию потерь, которая измеряет несоответствие между предсказаниями модели и истинными метками или целями, α — параметр регуляризации, который контролирует силу регуляризации. Здесь α определяет компромисс между хорошей подгонкой обучающих данных (минимизация функции потерь J) и поддержанием низкой сложности модели (минимизация члена регуляризации R(w)). Более высокое значение α увеличивает влияние члена регуляризации, что приводит к более простой модели с потенциально более высоким смещением и меньшей дисперсией. R(w) — это член регуляризации, который снижает определенные характеристики модели. Конкретная форма R(w) зависит от используемого типа регуляризации.

В процессе обучения регуляризованная функция потерь J_reg минимизируется по параметрам модели w. Обычно это делается с помощью алгоритмов оптимизации, таких как градиентный спуск или стохастический градиентный спуск. Процесс оптимизации направлен на поиск значений параметров, которые минимизируют регуляризованную функцию потерь, обеспечивая баланс между подбором обучающих данных и предотвращением переобучения.

Этот член регуляризации объединяется с исходной функцией потерь, в результате чего получается регуляризованная функция потерь. Параметр регуляризации α определяет силу регуляризации и управляет компромиссом между подгонкой обучающих данных и контролем сложности модели.

Затем регуляризованная функция потерь минимизируется, чтобы найти оптимальные значения параметров модели. Включение этого члена в функцию потерь побуждает модель находить баланс между подгонкой обучающих данных и контролем сложности модели.

Важность

Предотвращение переобучения.
– Переобучение происходит, когда модель учится слишком точно подгонять обучающие данные, фиксируя шум и нерелевантные шаблоны, характерные для обучающего набора. В результате производительность модели на невидимых данных снижается.
Регуляризация помогает смягчить переоснащение, накладывая ограничения на сложность модели, препятствуя запоминанию шума и сосредотачиваясь на более значимых закономерностях.
Улучшение обобщения.
– Добавляя небольшие штрафы за вес, регуляризация помогает улучшить способность модели обобщать новые, невидимые данные.
– Способствует изучению основных закономерностей и зависимостей, применимых ко всему набору данных. , а не полагаться на конкретные особенности тренировочного набора.
Простота модели:
– Регуляризация способствует тому, чтобы модели были проще и легче интерпретировались.
– Она не поощряет сложные или запутанные решения, которые могут быть подвержены переобучению и труднее понять.
– Более простые модели часто предпочтительны на практике, поскольку их легче объяснить, проверить и поддерживать.
Компромисс смещения и дисперсии:
Регуляризация играет решающую роль в компромиссе смещения и дисперсии. При введении члена регуляризации способность модели точно соответствовать обучающим данным снижается (более высокое смещение), что может помочь снизить чувствительность модели к шуму и улучшить ее работу с невидимыми данными (более низкая дисперсия).
Сокращение параметров:
– регуляризация может уменьшить значения параметров модели до нуля.
– это помогает уменьшить влияние менее важных функций, не позволяя им доминировать в прогнозах модели.
– эффективно выполняет выбор признаков, назначая меньшие веса нерелевантным или зашумленным признакам.

Общие методы регуляризации включают в себя: регуляризацию L1 (лассо), регуляризацию L2 (гребень), регуляризацию исключения.

Регуляризация L1 (лассо)

Регуляризация L1 добавляет сумму абсолютных значений параметров модели в качестве штрафного члена к функции потерь. Это поощряет разреженность в выборе функций, добавляя сумму абсолютных значений параметров. Член регуляризации L1 поощряет разреженность вектора параметров w:

R(w) = ||w||₁ = |w₁| + |w₂| + … + |w_n|

Член регуляризации R(w) наказывает большие значения параметров и способствует разреженности (регуляризация L1).

Регуляризация L2 (хребет)

Регуляризация L2 добавляет сумму квадратов значений параметров модели в качестве штрафного члена к функции потерь. Он продвигает меньшие значения параметров, добавляя сумму квадратов значений параметров:

R(w) = ||w||₂² = w₁² + w₂² + … + w_n²

Член регуляризации R (w) штрафует меньшие параметры

Регуляризация отсева:

Он случайным образом обнуляет часть входных единиц или весов модели во время обучения, эффективно создавая ансамбль меньших подсетей. Это помогает предотвратить сложные коадаптации нейронов и уменьшает переобучение.

Разница между регуляризацией L1 и L2

Регуляризация L1 и регуляризация L2 — это два распространенных метода, используемых для предотвращения переобучения в моделях машинного обучения путем добавления штрафных условий к функции потерь. Ключевые различия между регуляризацией L1 и L2 заключаются в типе применяемого штрафа и влиянии на поведение модели.

Тип штрафа:
— регуляризация L1 добавляет к функции потерь сумму абсолютных значений параметров модели. Математически это можно представить как норму L1 вектора параметров: λ * ||w||₁, где λ — параметр регуляризации, а ||w||₁ представляет норму L1 вектора параметров w.
- Регуляризация L2 (Ridge) добавляет сумму квадратов значений параметров модели к функции потерь. Математически это можно представить как норму L2 вектора параметров: λ * ||w||₂², где λ — параметр регуляризации, а ||w||₂ представляет норму L2 вектора параметров w.
Влияние на поведение модели:
Регуляризация L1 поощряет разреженность значений параметров модели, то есть сводит некоторые значения параметров к нулю. Это приводит к выбору признаков, когда менее важные признаки эффективно игнорируются моделью, что приводит к более интерпретируемой и компактной модели. Регуляризация L1 может создавать модели с меньшим количеством параметров и более целенаправленным набором функций.
- Регуляризация L2: Регуляризация L2 наказывает большие значения параметров и поощряет меньшие значения параметров. Это не заставляет параметры становиться точно нулевыми. Вместо этого он плавно снижает влияние менее важных функций, но сохраняет их в модели. Регуляризация L2 помогает более равномерно распределять значения веса по функциям, уменьшая влияние каждой отдельной функции и приводя к более плавным и стабильным моделям.
Выбор
. Важно отметить, что предпочтение регуляризации L2 по сравнению с регуляризацией L1 зависит от конкретной проблемы, характера данных и желаемого компромисса между выбором функций и стабильностью модели. В некоторых случаях может быть предпочтительнее сочетание обоих методов регуляризации (регуляризация эластичной сети), чтобы использовать преимущества регуляризации как L1, так и L2.

Когда L1 предпочтительнее регуляризации L2?

Регуляризация L1 часто предпочтительнее регуляризации L2, когда требуется выбор признаков. Это включает в себя случай, когда мы хотим, чтобы модель сосредоточилась на меньшем подмножестве важных функций, установив значения некоторых параметров точно равными нулю. Регуляризация L1 может эффективно устранять нерелевантные или зашумленные функции, что приводит к более интерпретируемой и эффективной модели. Регуляризация L1 полезна в тех случаях, когда набор данных имеет большое количество признаков, и мы хотим определить наиболее релевантные из них.

Регуляризация L1 (регуляризация Лассо) обычно предпочтительнее регуляризации L2 (регуляризация Риджа) в следующих сценариях:

Выбор функции:
Регуляризация L1 имеет тенденцию сводить некоторые значения параметров точно к нулю, что приводит к разреженным моделям. Это делает регуляризацию L1 полезной, когда требуется выбор признаков, т. е. когда вы хотите определить и сосредоточиться на меньшем подмножестве важных признаков. Эффективно устраняя ненужные или зашумленные функции, регуляризация L1 может привести к более интерпретируемым и эффективным моделям. Если у вас есть большое количество функций и вы хотите определить наиболее релевантные, регуляризация L1 — хороший выбор.
Интерпретируемость модели.
Регуляризация L1 способствует разреженности значений параметров модели. Разреженные модели легче интерпретировать, поскольку они учитывают только подмножество функций, что позволяет определить наиболее влиятельные переменные в модели. Это может быть важно в областях, где интерпретируемость является приоритетом, таких как здравоохранение или финансы, где решающее значение имеет понимание основных факторов, определяющих прогнозы.
Эффективность вычислений.
Регуляризация L1 может быть эффективной с точки зрения вычислений при работе с многомерными данными. Поскольку регуляризация L1 поощряет разреженные решения, сводя некоторые значения параметров к нулю, она эффективно уменьшает количество функций, учитываемых моделью. Это может привести к более быстрому обучению и времени вывода, особенно при работе с большими наборами данных или сложными моделями.
Обработка коллинеарных признаков.
Регуляризация L1 обрабатывает коррелированные или коллинеарные признаки лучше, чем регуляризация L2. Из-за природы регуляризации L1 она имеет тенденцию выбирать один признак из группы сильно коррелированных признаков и сводить остальные к нулю. Это может помочь смягчить проблемы мультиколлинеарности в данных, когда несколько функций несут одинаковую информацию.
Устойчивость к выбросам:
регуляризация L1 обычно более устойчива к наличию выбросов по сравнению с регуляризацией L2. Поскольку регуляризация L1 наказывает за использование абсолютных значений весов параметров, на нее меньше влияют экстремальные значения или выбросы в данных. Напротив, регуляризация L2 возводит веса параметров в квадрат, что делает ее более чувствительной к выбросам.

Когда L2 предпочтительнее регуляризации L1?

Регуляризация L2 обычно чаще используется по умолчанию из-за ее плавности и стабильного поведения. Это повышает стабильность модели и производительность обобщения, особенно при наличии коррелированных признаков и выбросов. Регуляризация L2 (регуляризация Риджа) обычно предпочтительнее регуляризации L1 (регуляризация Лассо) в следующих сценариях:

Непрерывные веса параметров.
Регуляризация L2 способствует уменьшению значений параметров, не приводя их к точному нулю. Это полезно, когда вы хотите, чтобы модель учитывала все функции и не исключала какие-либо потенциально информативные переменные. Регуляризация L2 помогает поддерживать непрерывность весов параметров и позволяет избежать полного отбрасывания переменных.
Обработка мультиколлинеарности.
Регуляризация L2 обрабатывает мультиколлинеарность (высокая корреляция между признаками) лучше, чем регуляризация L1. Когда функции сильно коррелированы, регуляризация L2 распределяет штраф по всем коррелирующим функциям, предотвращая предпочтение одной функции по сравнению с другими. Это может помочь стабилизировать поведение модели и обеспечить более надежные прогнозы при работе с коррелированными предикторами.
Стабильность и обобщение.
Регуляризация L2 имеет тенденцию создавать более плавные модели с более стабильным поведением. Снижая влияние менее важных функций, регуляризация L2 помогает предотвратить переоснащение и повышает производительность модели при обобщении. Часто предпочтительнее, когда основной целью является достижение хорошей производительности на невидимых данных, а не явное выполнение выбора функций.
Модели с большим количеством функций.
Регуляризация L2 хорошо подходит для моделей с большим количеством функций. В отличие от регуляризации L1, которая может свести веса некоторых признаков точно к нулю, регуляризация L2 сохраняет все функции в модели, но уменьшает их индивидуальный вклад. Это может быть полезно в тех случаях, когда нецелесообразно или нежелательно исключать какие-либо особенности из рассмотрения.
Шумоподавление.
Регуляризация уровня L2 может эффективно уменьшить влияние шума на данные. Уменьшая веса параметров, регуляризация L2 помогает подавить влияние зашумленных или нерелевантных признаков, делая модель более устойчивой к случайным колебаниям данных.

Регуляризация эластичной сети

Регуляризация эластичной сети представляет собой комбинацию регуляризации L1 (Lasso) и регуляризации L2 (Ridge). Он устраняет некоторые ограничения каждого метода, обеспечивая компромисс между выбором признаков (L1) и сокращением параметров (L2). Регуляризованная функция потерь в Elastic Net определяется следующим образом:

J_reg = J + α * {λ * L1(w) + 0,5 * (1 — λ) * L2(w)}

где:
— J — исходная функция потерь, которая измеряет несоответствие между прогнозами модели и истинными метками или целями
— α — параметр регуляризации, контролирующий общую силу регуляризации
— λ — параметр смешивания, определяющий баланс между регуляризацией L1 и L2. Он принимает значения от 0 до 1
- L1(w) представляет член регуляризации L1 (сумма абсолютных значений параметров). L1(w) = ||w||₁ = |w₁| + |ш₂| + … + |w_n|
- L2(w) представляет член регуляризации L2 (сумма квадратов значений параметров). L2(w) = ||w||₂² = w₁² + w₂² + … + w_n²

Член регуляризации L1 поощряет разреженность вектора параметров w, сводя некоторые значения параметров точно к нулю и способствуя выбору признаков.

Термин регуляризации L2 поощряет меньшие значения параметров, что помогает сократить параметры и уменьшить влияние выбросов.

Параметр смешивания λ управляет компромиссом между регуляризацией L1 и L2.

Когда для λ установлено значение 1, эластичная сеть становится эквивалентной регуляризации L1 (лассо), подчеркивая выбор признаков.
Когда λ установлено на 0, Elastic Net становится эквивалентной регуляризации L2 (Ridge), подчеркивая уменьшение параметра.
Промежуточные значения λ позволяют сочетать оба метода регуляризации, используя их сильные стороны.

В процессе обучения регуляризованная функция потерь J_reg минимизируется по параметрам модели w. Обычно это делается с помощью алгоритмов оптимизации, таких как градиентный спуск или стохастический градиентный спуск. Процесс оптимизации направлен на поиск значений параметров, которые минимизируют регуляризованную функцию потерь, обеспечивая баланс между подгонкой обучающих данных, выполнением выбора признаков и управлением значениями параметров.

В Elastic Net параметр смешивания λ управляет балансом между двумя методами регуляризации, позволяя по-разному акцентировать внимание на выборе признаков и сокращении параметров. Регуляризация эластичной сети полезна в сценариях, где желательны как выбор функций, так и сокращение параметров, и она обеспечивает большую гибкость, чем использование регуляризации L1 или L2 по отдельности.

Классификация против регрессии

Классификация и регрессия — это два основных типа задач машинного обучения, где разница заключается в типе целевой переменной, которую они предсказывают. В классификации целевая переменная является категориальной, а модель направлена на классификацию экземпляров в определенные классы. В регрессии целевая переменная является непрерывной, и модель нацелена на прогнозирование числовых значений.

И в классификации, и в регрессии цель состоит в том, чтобы изучить функцию или модель, которые могут хорошо обобщать невидимые данные. Однако разница заключается в характере целевой переменной и математическом представлении проблемы.

Регрессионные модели

В регрессии цель состоит в том, чтобы предсказать непрерывное числовое значение. Регрессию можно определить как нахождение функции f(x), которая отображает вектор входных признаков x в непрерывное выходное значение y, где y принадлежит действительным числам (y ∈ ℝ). Целевая переменная в регрессии обычно представлена в виде непрерывных числовых данных. Цель состоит в том, чтобы изучить модель регрессии, которая фиксирует взаимосвязь между входными функциями и целевой переменной. Результатом регрессионной модели является прогнозируемое числовое значение y_pred, которое представляет количество или измерение.

Пример:

Учитывая набор данных домов с различными характеристиками, задача состоит в том, чтобы предсказать цену дома (регрессия). Математически целевая переменная y представляет собой непрерывное значение, представляющее цену дома (y ∈ ℝ). Регрессионная модель изучает функцию f(x), которая сопоставляет характеристики дома x с соответствующей прогнозируемой ценой дома y.

Регрессионные модели можно считать дискриминационными, а не генеративными. Поскольку модели регрессии сосредоточены на прогнозировании числового значения на основе входных функций. Тогда как генеративные модели используются для моделирования совместного распределения и создания новых выборок. Поскольку модели регрессии связаны с изучением сопоставления входных признаков с выходными значениями, а не с явным моделированием процесса генерации данных, они подпадают под категорию дискриминационных моделей.

Оценка регрессии

В задачах регрессии обычно используются несколько показателей оценки для оценки производительности модели при прогнозировании непрерывных числовых значений. Некоторые из основных показателей оценки для задач регрессии:

Ниже:

1. Среднеквадратическая ошибка (MSE).
Среднеквадратическая ошибка вычисляет среднеквадратичную разницу между прогнозируемыми и фактическими значениями. MSE широко используется, так как подчеркивает большие ошибки из-за операции возведения в квадрат.

MSE имеет несколько свойств, которые делают его популярным выбором в качестве функции потерь в регрессии. Оно неотрицательно, так как каждая квадратная разность неотрицательна. Он более сильно наказывает за большие ошибки из-за операции возведения в квадрат. Он дифференцируем, что позволяет применять алгоритмы оптимизации на основе градиента во время обучения модели. Он широко используется и легко интерпретируется, обеспечивая меру среднего квадрата ошибки между предсказанными и истинными значениями.

При минимизации MSE модель регрессии корректирует свои коэффициенты, чтобы минимизировать общую квадратичную ошибку, стремясь улучшить соответствие модели данным. Однако важно отметить, что MSE чувствителен к выбросам, поскольку их квадратичные различия могут доминировать в общих потерях. Следовательно, в ситуациях, когда присутствуют выбросы или данные имеют асимметричное распределение, можно использовать альтернативные функции потерь, такие как средняя абсолютная ошибка (MAE) или потери Хьюбера, чтобы смягчить влияние выбросов.

2. Среднеквадратическая ошибка (RMSE):
Среднеквадратическая ошибка представляет собой квадратный корень из среднеквадратичной ошибки и представляет собой меру средней величины ошибок. RMSE обычно используется, поскольку он находится в том же масштабе, что и целевая переменная.

3. Средняя абсолютная ошибка (MAE).
Средняя абсолютная ошибка вычисляет среднюю абсолютную разницу между прогнозируемыми и фактическими значениями. MAE менее чувствителен к выбросам по сравнению с MSE, поскольку не требует возведения в квадрат.

MAE имеет несколько свойств, которые делают его подходящим выбором в качестве функции потерь в регрессии. Оно неотрицательно, так как каждая абсолютная разность неотрицательна. Он обеспечивает прямое измерение средней абсолютной ошибки между прогнозируемыми и истинными значениями. Он устойчив к выбросам, поскольку не усиливает их эффект, как квадратичные различия в MSE. Он легко интерпретируется и интуитивно понятен, представляя среднюю величину ошибок в тех же единицах, что и зависимая переменная.

При минимизации MAE модель регрессии корректирует свои коэффициенты, чтобы минимизировать общую абсолютную ошибку, стремясь улучшить соответствие модели данным. Однако MAE не дифференцируется в нуле, что может создавать проблемы для алгоритмов оптимизации на основе градиента. В таких случаях для баланса между надежностью и дифференцируемостью можно использовать альтернативные функции потерь, такие как среднеквадратическая ошибка (MSE) или потеря Хубера, которая является компромиссом между MAE и MSE.

4. R-квадрат (коэффициент детерминации)
Метрика R-квадрат измеряет долю дисперсии целевой переменной, которая может быть объяснена моделью. R-квадрат находится в диапазоне от 0 до 1, где более высокое значение указывает на лучшее соответствие.

5. Скорректированный R-квадрат
Метрика Скорректированный R-квадрат представляет собой модифицированную версию R-квадрата, которая наказывает за включение в модель ненужных функций. Скорректированный R-квадрат учитывает количество предикторов в модели и обеспечивает более надежную меру согласия модели. Формула для скорректированного R-квадрата зависит от количества предикторов и размера выборки и является более сложной.

Эти показатели оценки предоставляют количественные показатели для оценки производительности регрессионных моделей. Выбор метрики оценки зависит от конкретной проблемы, желаемого компромисса между точностью и интерпретируемостью и характера данных. Важно учитывать несколько показателей оценки, чтобы получить полное представление о производительности модели.

Модели классификации

В классификации цель состоит в том, чтобы предсказать дискретный категориальный результат или метку. Классификацию можно определить как нахождение функции f(x), которая отображает входной вектор признаков x в дискретный выходной класс y, где y принадлежит конечному набору возможных классов C = {c1, c2, …, cn}. Цель состоит в том, чтобы изучить границу решения или функцию решения, которая разделяет различные классы в пространстве признаков. Результатом модели классификации является прогнозируемая метка класса y_pred, которая присваивается определенному классу из набора возможных классов.

Пример.
При заданном наборе данных электронных писем задача состоит в том, чтобы классифицировать каждое электронное письмо как спам или не спам (бинарная классификация). Математически целевая переменная y принадлежит множеству C = {спам, а не спам}. Модель классификации изучает функцию f(x), которая сопоставляет функции электронной почты x с соответствующей меткой класса y.

Оценка классификации

Существует несколько показателей оценки, используемых для задач классификации для оценки производительности модели машинного обучения. Вот некоторые из основных показателей оценки вместе с их уравнениями:

1. Точность.
Точность измеряет общую правильность прогнозов модели. Он рассчитывает отношение правильных прогнозов (истинно положительных и истинно отрицательных) к общему количеству экземпляров.
Точность = (истинно положительные + истинно отрицательные) / (истинно положительные + истинно отрицательные + ложноположительные + ложноотрицательные)

2. Точность.
Точность измеряет долю правильно спрогнозированных положительных случаев из всех случаев, спрогнозированных как положительные. Основное внимание уделяется точности положительных прогнозов.
Точность = истинные положительные результаты / (правильные срабатывания + ложные срабатывания).

3. Отзыв:
Отзыв, также известный как чувствительность или доля истинно положительных результатов, измеряет долю правильно предсказанных положительных случаев из всех фактических положительных случаев. Основное внимание уделяется захвату всех положительных примеров.
Отзыв = истинные положительные результаты / (истинные положительные результаты + ложноотрицательные результаты).

4. Оценка F1:
Оценка F1 представляет собой гармоническое среднее значение точности и полноты. Он предоставляет единую метрику, которая уравновешивает точность и полноту.
Оценка F1 = 2 * (точность * полнота) / (точность + полнота).

5. Специфичность.
Специфика измеряет долю правильно предсказанных отрицательных случаев среди всех фактических отрицательных случаев. Основное внимание уделяется захвату всех отрицательных случаев.
Специфичность = истинно отрицательные / (истинно отрицательные + ложноположительные результаты).

6. Площадь под кривой ROC (AUC-ROC).
Метрика AUC-ROC оценивает способность модели различать положительные и отрицательные экземпляры при разных порогах классификации. Он вычисляет площадь под кривой рабочих характеристик приемника (ROC).
Кривая ROC отображает процент истинных срабатываний (TPR) в сравнении с уровнем ложных срабатываний (FPR) при различных пороговых значениях. AUC-ROC находится в диапазоне от 0 до 1, где более высокое значение указывает на лучшую производительность классификации.
Выбор метрики оценки зависит от конкретной проблемы, распределения классов и относительной важности ложноположительных и ложноотрицательных результатов в анализе. данный контекст.

Матрица путаницы в классификации

Матрица путаницы обеспечивает табличное представление прогнозируемых и фактических меток классов, что позволяет проводить подробный анализ производительности модели по разным классам.

Матрица путаницы обычно представляет собой квадратную матрицу размера N x N, где N — количество классов в задаче классификации. Каждая строка матрицы представляет экземпляры в реальном классе, а каждый столбец представляет экземпляры в прогнозируемом классе. Ячейки матрицы содержат количество или частоту экземпляров, попадающих в каждую комбинацию прогнозируемых и фактических классов.

Основная цель матрицы путаницы — дать представление о результатах классификации модели, что позволяет рассчитать различные оценочные показатели. Из матрицы путаницы можно вывести несколько показателей эффективности, в том числе:

1. Истинные положительные результаты (TP): количество случаев, правильно классифицированных как положительные (правильно спрогнозированные как интересующий класс).

2. True Negatives (TN): количество экземпляров, правильно классифицированных как отрицательные (правильно спрогнозированные как не принадлежащие к интересующему классу).

3. Ложные срабатывания (FP): количество случаев, неправильно классифицированных как положительные (прогнозированные как интересующий класс, но фактически принадлежащие к другому классу).

4. Ложноотрицательные результаты (FN): количество случаев, неправильно классифицированных как отрицательные (прогнозированные как не принадлежащие к интересующему классу, но фактически принадлежащие к интересующему классу).

Используя значения в матрице путаницы, можно рассчитать различные оценочные показатели, такие как точность, достоверность, полнота и оценка F1 для каждого класса. Эти метрики дают представление о производительности модели с точки зрения правильной идентификации экземпляров определенного класса, предотвращения ложных срабатываний или отрицательных результатов и общей точности.

Матрица путаницы особенно полезна в сценариях, где существует дисбаланс классов или когда разные классы имеют разную степень важности. Это помогает определить, какие классы чаще неправильно классифицируются, и дает рекомендации по возможным областям улучшения.

Фактическое положительное значение = TP + FN
Фактическое отрицательное значение = FP + TN
TPR (True Positive Rate), также известный как чувствительность или отзыв, представляет собой показатель, который измеряет долю фактических положительных случаев, правильно классифицированных моделью как положительные. ТПР = ТП / (ТП + ФН)
TPR представляет собой способность модели правильно идентифицировать положительные экземпляры или частоту истинных положительных результатов. Более высокий TPR указывает на более чувствительную модель, которая фиксирует большую долю положительных экземпляров.
TNR (True Negative Rate), также известный как специфичность, представляет собой показатель, который измеряет долю фактических отрицательных случаев, правильно классифицированных моделью как отрицательные. TNR = TN / (TN + FP)
TNR представляет собой способность модели правильно идентифицировать отрицательные экземпляры или частоту истинных отрицательных результатов. Более высокий TNR указывает на более конкретную модель, которая позволяет избежать неправильной классификации отрицательных случаев.
FPR (коэффициент ложных срабатываний) — это доля фактических отрицательных случаев, ошибочно классифицированных моделью как положительные. FPR = FP / (FP + TN)
FPR представляет тенденцию модели неправильно классифицировать отрицательные случаи как положительные. Более низкий FPR указывает на лучшую способность избегать ложных срабатываний.
FNR (False Negative Rate) — это доля фактически положительных случаев, ошибочно классифицированных моделью как отрицательные. ФНР = ФН / (ФН + ТП)
FNR представляет тенденцию модели неправильно классифицировать положительные примеры как отрицательные. Более низкий FNR указывает на лучшую способность избегать ложноотрицательных результатов.

Часть II: Традиционные алгоритмы машинного обучения

Часть III: Нейронная сеть