Введение в машинное обучение: основные понятия и первые шаги

Базовые концепты

Что такое машинное обучение?

Это научная область исследований, посвященная разработке различных алгоритмов и методов, позволяющих компьютерам обучаться так же, как люди.

Типы переменных

Числовые переменные
Категориальные переменные (номинальные, порядковые)
Зависимая переменная (целевая, зависимая, выходные данные, ответ)
Независимая переменная (признак, независимая, входной столбец, предиктор, пояснительная)

Типы обучения

Обучение с учителем
Если в наборе данных есть метки, то есть если есть цель, если есть зависимая переменная, то это обучение с учителем.
Обучение без учителя
Если у нас нет меток в наборе данных, то есть нет цели, это обучение без учителя, если нет зависимой переменной. В этом случае можно выполнить кластеризацию, можно создавать кластеры.
Обучение с подкреплением
Подметание дома роботом в доме позволит выбраться из этой комнаты методом проб и ошибок, путем подкрепления, умножения, обучения и извлечения уроков из ошибок сделано неправильно.
Например, ребенок учится не прикасаться к плите после того, как обжегся.

Типы проблем

Проблема машинного обучения, с которой мы имеем дело, является проблемой регрессии? (Является ли зависимая переменная числовой?) Или это проблема классификации? (Является ли зависимая переменная категориальной?)

Методы оценки успеха модели

Насколько успешны мои прогнозы?

Оценка успеха в регрессионных моделях

MSE (минимальная квадратичная ошибка): дает возможность оценить разницу между фактическим значением и расчетным значением.

Мы вычитаем расчетное значение (yi^) из фактического значения (yi), возводим в квадрат разницу между ними и складываем. Чем меньше, тем лучше.

RMSE (среднеквадратическая ошибка):Остатки являются мерой того, насколько далеко от точек данных линии регрессии; RMSE — это мера того, насколько разбросаны эти остатки. Другими словами, он говорит вам, насколько сконцентрированы данные вокруг линии наилучшего соответствия.

MAE (средняя абсолютная ошибка): это разница между измеренным значением и «истинным» значением. Например, если на весах указано 90 фунтов, но вы знаете, что ваш истинный вес составляет 89 фунтов, то абсолютная погрешность весов составит 90 фунтов — 89 фунтов = 1 фунт.

Оценка успеха моделей классификации

Точность: успешно оцененные значения/фактические значения.
(Чем оно выше, тем лучше)

Методы проверки модели

Метод удержания (метод тестового набора):
Набор данных разделен на две части: обучающий набор и тестовый набор. В разделе «Тест обучения» необходимо протестировать обучение в разделе «Набор тестов». Причина, по которой мы это делаем, заключается в том, что мы пытаемся проверить успешность модели с помощью данных, которые модель уже знает. Поэтому возникают такие проблемы, как переобучение и неправильная оценка ошибок.

Перекрестная проверка K-фолда:
Например, если наша единица наблюдения находится на низком уровне, но удерживается; У нас 100 наблюдений, мы выделили от 20% до 80%. Часть 20% - это тестовая часть, насколько точна эта часть, то есть, если мы считаем, что наше наблюдение состоит из 0 и 1, часть 20% может быть равна 1, это метод, используемый для решения таких проблем, как .
Примечание: не всегда действительно !!!
Первый способ применения: без задержки мы делим наш набор данных на 5 частей. Там говорится, что постройте модель из 5 отдельных частей, например этих 4 частей, и протестируйте ее с оставшейся 1 деньгами. Затем он усредняет тесты, ошибки или успехи, давая нам ошибку перекрестной проверки.
Второй способ применения. В методе удержания перекрестная проверка выполняется для нашего обучающего набора, как если бы это был весь наш набор данных, и последние данные, которые он никогда не видел (TestSet), снова исчезают.
Модель компромисса смещения и дисперсии: это экстракт данных.

Компромисс смещения и дисперсии

Модель: Это экстракт данных.

Недооснащение (высокое смещение): это неспособность модели изучить данные.

Правильная модель (малая погрешность, низкая дисперсия): она изучает структуру набора данных.

Переобучение (высокая дисперсия): Модель запоминает данные.
Например: Ребенок полностью шаг за шагом запоминает вопросы, данные к экзамену, не понимая структуры.!!!

Важно!!! : Как узнать, что вы впали в переобучение?
Проверяются изменения ошибок в обучающем наборе и тестовом наборе. В тот момент, когда эти две ошибки отделяются друг от друга и начинают раздваиваться, говорят, что началось переобучение.

Сложность модели

В линейных моделях. Уточнение модели — это попытка усилить ее функции, чтобы она могла делать более подробные прогнозы.
В древовидных моделях: Количество ветвей, например, будет ли дерево разделено на 8 ветвей или этот процесс ветвления продолжится в течение 18 шагов?

Как решить проблему переобучения?

Размер набора данных можно увеличить
Выбор функции может быть сделан.
Наконец, точка, в которой ошибки обучающего теста и набора тестов расходятся, выбирается в качестве оптимальной точки, и когда эта точка останавливается, чрезмерное обучение предотвращается.