Руководство для начинающих по машинному обучению: ключевые принципы, которые вам нужно знать

Добро пожаловать в невероятный мир машинного обучения, где данные преобразуют отрасли так, как мы не могли себе представить всего несколько лет назад.

«Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования». — Сэмюэл, Артур (1959).

Возьмем, к примеру, финансовый сектор, где системы обнаружения мошенничества неустанно сортируют миллионы транзакций, экономя миллиарды за счет выявления нарушений. Представьте себе производственный цех, работающий от эффективности благодаря алгоритмам прогнозного обслуживания, которые выявляют проблемы с оборудованием до того, как они нарушат производство. Представьте себе, что медицинские диагнозы становятся более точными благодаря машинному анализу сложных данных. А вы когда-нибудь удивлялись тому, насколько точно потоковые платформы предлагают контент, который вам понравится? Эти чудеса машинного обучения меняют правила игры. В этом руководстве мы рассмотрим основополагающие принципы машинного обучения на примере реальных бизнес-эпопей. Давайте посмотрим на этот фантастический новый мир, где данные и алгоритмы меняют то, как мы ведем бизнес! Довольно захватывающая вещь, не так ли?

Очень важно понимать типы переменных, которые используются в алгоритмах машинного обучения. Эти переменные являются ключевыми компонентами данных, которые анализируются алгоритмами для выявления закономерностей и идей, что позволяет машинам принимать разумные решения и прогнозы.

Числовые переменные

Числовые переменные представляют собой величины и могут быть измерены в числовом масштабе. Далее они делятся на два подтипа:

Непрерывные переменные могут принимать любое действительное значение в заданном диапазоне. Их часто измеряют, и их значения могут быть бесконечно точными. Примеры включают в себя:

Температура. Измеряется в градусах и может принимать любое значение в определенном диапазоне, например 23,5 °C или 31,2 °C.
Вес: представлен в килограммах или фунтах. Это может быть любое положительное действительное число.
Высота: измеряется в метрах или футах и может принимать любое положительное значение.

Дискретные переменные могут принимать только определенные отдельные значения. Их часто подсчитывают, а не измеряют. Примеры включают в себя:

Количество сотрудников: у вас может быть 3 или 4 сотрудника, но не 3,5.
Количество автомобилей: это может быть только целое число, например 1, 2 или 3.

Категориальные переменные

Категориальные переменные представляют категории или группы и носят качественный характер. Они делятся на два подтипа:

Номинальные переменные – это категории, которые не имеют какого-либо внутреннего порядка или ранжирования. Они просто отличаются друг от друга без какой-либо иерархии. Примеры включают в себя:

Пол: мужской, женский, небинарный.
Группа крови: A, B, AB, O.
Цвет: красный, синий, зеленый.

Порядковые переменные имеют классы, которые следуют определенному порядку или рангу, а также подразумевают своего рода значимое ранжирование или иерархию, даже если интервалы между категориями не одинаковы. Примеры включают в себя:

Уровень образования: среднее, бакалавр, магистр, доктор философии. (Упорядочено, но конкретной числовой разницы между уровнями нет).
Удовлетворенность клиентов: очень недовольны, недовольны, нейтральны, удовлетворены, очень удовлетворены.

Контролируемое обучение

Задачи регрессии включают в себя прогнозирование непрерывного результата и, например, прогнозирование цены дома на основе таких характеристик, как размер, расположение и количество спален. Общие алгоритмы регрессии включают линейную регрессию и регрессию опорных векторов.

Проблемы классификации включают в себя разделение входных данных на два или более классов, например определение того, является ли электронное письмо спамом или нет. Такие алгоритмы, как логистическая регрессия, деревья решений и нейронные сети, часто используются для задач классификации. Стоит отметить, что регрессия также может обрабатывать несколько выходных данных одновременно — сценарий, известный как многомерная регрессия. Точно так же классификация может выходить за рамки бинарных решений и включать ситуации, когда необходимо идентифицировать более двух классов — это называется мультиклассовой классификацией.

Обучение без присмотра

Кластеризация заключается в группировке схожих точек данных без каких-либо предопределенных меток. Думайте об этом как о расстановке книг на полке по темам, не зная заранее жанров. Для этой задачи популярны такие алгоритмы, как K-Means и иерархическая кластеризация.

Правила ассоциации правилапомогают обнаружить интересные связи между переменными в больших наборах данных. Их часто используют при анализе потребительской корзины — области, в которой они раскрывают ценную информацию о поведении и предпочтениях потребителей, например, тот факт, что люди, покупающие подгузники, часто покупают пиво, приводит к стратегическому размещению продуктов в магазинах. Apriori и FP-Growth — распространенные алгоритмы обучения правилам ассоциации.

Обучение с подкреплением

Парадигма обучения с подкреплением предполагает, что агент взаимодействует со своей средой, чтобы получить знания, необходимые для принятия оптимальных решений.

Проблемы Многорукого бандита заключаются в балансе исследования и эксплуатации. Представьте себе игрока, сидящего рядом с игровыми автоматами и пытающегося выяснить, на каком автомате играть, чтобы максимизировать вознаграждение. Для решения этой проблемы используются такие алгоритмы, как алгоритм Epsilon-Greedy.

Марковские процессы принятия решений (MDP) — это математические модели, используемые для описания среды, в которой агент выполняет действия для перемещения между состояниями и получает вознаграждения или штрафы. MDP лежат в основе многих алгоритмов обучения с подкреплением, включая Q-Learning.

Помимо контролируемого, неконтролируемого обучения и обучения с подкреплением, существуют еще два типа машинного обучения: полуконтролируемое и самоконтролируемое. Обучение с полуконтролем использует для обучения как размеченные, так и неразмеченные данные, что приводит к повышению производительности при меньшем количестве размеченных данных. Этот подход практичен, когда маркировка данных требует больших затрат или времени. Обучение с самоконтролем — это парадигма обучения без присмотра, при которой данные обеспечивают контроль, например, прогнозирование следующего слова в предложении с использованием предыдущих слов. Этот метод получил распространение в области обработки естественного языка и компьютерного зрения.

Изучая машинное обучение, мы должны оценивать точность наших моделей. Мы можем сделать это, определив важные маркеры, которые действуют как ориентиры и помогают нам понять точность наших прогнозов. Это похоже на то, как звезды ведут моряков по незнакомым водам. Для каждого типа проблем существуют разные методы расчетов и метрики для проверки.

В задачах регрессии мы используем один из показателей, который называется Среднеквадратическая ошибка (MSE) и измеряет расстояние между прогнозируемыми и фактическими значениями. Это важный инструмент оптимизации моделей для лучшего отражения реальности. Однако следует иметь в виду, что MSE может варьироваться в зависимости от диапазона измеряемых значений.

Среднеквадратическая ошибка (RMSE) – это инструмент, который помогает оценить точность прогнозной модели путем измерения разницы между прогнозируемыми и фактическими результатами. Он вычисляет среднее значение квадратов отклонений, а затем извлекает квадратный корень из этого числа. Это позволяет нам сравнивать ошибки прогноза с фактическими данными и помогает нам улучшать нашу модель с течением времени.

При измерении ошибок прогнозирования Средняя абсолютная ошибка (MAE) является ценным инструментом, учитывающим разницу между фактическими и прогнозируемыми значениями. В отличие от других показателей, которые возводят отклонения в квадрат, MAE реагирует на меньшие ошибки, что делает его ценным ресурсом для улучшения моделей. Принимая среднее значение абсолютных отклонений, MAE обеспечивает реалистичное изображение ошибок прогнозирования, соответствующее реальным единицам измерения.

Для моделей классификации существуют разные показатели, которые следует учитывать при оценке успеха модели. Показатель точности — один из самых известных оценщиков, измеряющий отношение правильно предсказанных наблюдений к общему числу наблюдений и дающий общий обзор эффективности модели.

Точность — еще один важный показатель, который сводит к минимуму ложноположительные результаты, отражая долю точных положительных прогнозов среди всех положительных прогнозов. Между тем, «Вспомнить» направлено на то, чтобы свести к минимуму ложноотрицательные результаты и привлечь внимание к истинным положительным результатам, сигнализируя о соотношении истинно положительных прогнозов ко всем фактически положительным случаям.

F1-Score объединяет точность и полноту в сбалансированный показатель, который дает более полное представление о мастерстве классификатора. Гармоничное среднее между точностью и полнотой предлагает путь, на котором оба аспекта обретают равновесие.

Потеря журнала вычисляет расхождение между истинными и прогнозируемыми классами, что делает его полезным показателем для оценки вероятности.

Выбор метрики зависит от данных и конкретной проблемы. Иногда точность или полнота могут быть важнее точности, особенно в сценариях несбалансированной классификации. Эти показатели помогают нам создавать модели, которые несут ценную информацию и раскрывают секреты, скрытые в данных.

Компромисс смещения и дисперсии — это важнейшая концепция в машинном обучении, которая описывает баланс между двумя источниками ошибок, которые могут повлиять на общую производительность модели: смещением и дисперсией. Проще говоря, смещение относится к ошибке, возникающей при аппроксимации реальной проблемы упрощенной моделью. Высокая погрешность означает, что модель слишком проста, чтобы уловить основные закономерности в данных, что приводит к систематическим ошибкам прогнозирования. С другой стороны, дисперсия относится к чувствительности модели к небольшим колебаниям обучающих данных. Высокая дисперсия означает, что модель очень гибкая и хорошо соответствует обучающим данным, включая шум и выбросы.

Говорят, что модель с высоким смещением недостаточно подходит. Модель недостаточного соответствия должна отражать сложность данных и делать слишком упрощенные предположения, что приводит к низкой производительности как для обучающих, так и для тестовых данных. И наоборот, если модель имеет высокую дисперсию, говорят, что она переоснащена. Модель переобучения улавливает шум в обучающих данных, как если бы это был реальный шаблон, что приводит к отличной производительности обучающих данных, но плохому обобщению на новые, невидимые данные. Одним из способов предотвращения переобучения является внедрение таких методов, как увеличение размера набора данных, выполнение выбора функций и выбор оптимальной точки, в которой разрыв между обучающим набором и тестовым набором начинает увеличиваться.

Задача при построении модели машинного обучения состоит в том, чтобы найти правильный баланс между предвзятостью и дисперсией. Модель с высоким смещением и низкой дисперсией слишком проста и не учитывает основные тенденции, что приводит к недостаточному подгонке. Модель с низким смещением и высокой дисперсией должна быть упрощена и учитывать шум в данных, что приводит к переобучению. Идеальная модель имеет сбалансированное смещение и дисперсию, фиксируя основные закономерности без подгонки под шум.

Сложность модели предполагает усиление характеристик модели для повышения точности и возможности детального прогнозирования. Это может включать увеличение количества используемых функций, добавление скрытых слоев в нейронную сеть или использование продвинутых алгоритмов обучения, таких как ансамблевые методы или повышение градиента. Однако важно отметить, что слишком сложные модели могут привести к увеличению времени обучения и увеличению требований к вычислительным ресурсам.

Представьте себе скользящую шкалу: на одном конце у нас есть модели, которые слишком просты и не соответствуют данным, а на другом конце у нас есть модели, которые слишком сложны и слишком соответствуют шуму. Цель состоит в том, чтобы найти золотую середину, при которой модель отражает значимые закономерности, избегая при этом ненужных сложностей.

Компромисс смещения и дисперсии часто визуализируется в виде U-образной кривой, на которой общая ошибка отображается в зависимости от сложности модели. Левая часть кривой представляет собой высокую погрешность и низкую дисперсию, что приводит к недостаточному подгонке. Правая часть кривой представляет низкое смещение и высокую дисперсию, что приводит к переобучению. Нижняя часть кривой представляет собой оптимальную точку, где смещение и дисперсия сбалансированы.

Машинное обучение — это увлекательная вселенная, наполненная безграничными возможностями. Мы только начали изучать основные концепции этой обширной области, и в ближайшие недели мы вместе будем погружаться глубже. Оставайтесь с нами и отправляйтесь в очаровательное путешествие, полное открытий.

Подключите меня в LinkedIn

Ссылки
1. Сэмюэл, А.Л. (1967). Некоторые исследования в области машинного обучения с использованием игры в шашки. IBM J. Res. Дев., 44, 206–227.

2. https://www.datatechnotes.com/2019/02/reгрессия-модель-аккуратность-mae-mse-rmse.htm

3. https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/