Машинное обучение (ML) — это метод, который использует алгоритмы для обучения на основе данных без явного программирования. Благодаря обилию данных и эффективному хранению данных машинное обучение в последнее время привлекло к себе всеобщее внимание, но фундаментальные исследования в этой области были проведены в семидесятых и восьмидесятых годах.
Различные способы обучения компьютера на основе данных — контролируемое обучение, обучение без учителя и обучение с подкреплением.

Контролируемое обучение

Алгоритм контролируемого обучения использует помеченные данные при обучении модели, а затем модель делает прогнозы при наличии новых данных. Эти проблемы можно разделить на проблемы регрессии и классификации.

  • Классификация. Когда целевая переменная является категориальной, например идентифицирует спам и сообщения, не являющиеся спамом.
  • Регрессия: когда целевая переменная представляет собой реальное значение, например цену дома.

Неконтролируемое обучение

Неконтролируемое обучение — это когда мы имеем дело с немаркированными обучающими данными, то есть без целевой переменной. Цель состоит в том, чтобы найти закономерности в данных, чтобы извлечь из них информацию.

Две формы проблем обучения без учителя — это кластеризация и ассоциация.

  • Кластеризация. Проблема кластеризации заключается в том, что вы хотите обнаружить группировку данных на основе предопределенной метрики сходства или расстояния в пространстве признаков. Например, поиск сегментов клиентов в данных.
  • Уменьшение размерности. Это задача, в которой используется метод обучения без учителя, при котором количество случайных переменных (рассматриваемых) уменьшается путем проецирования пространства признаков в пространство с меньшей размерностью.
  • Ассоциация. Проблема изучения правила ассоциации заключается в том, что вы хотите найти правила, которые в основном описывают данные, например, люди, которые покупают Z, также склонны покупать V.

Обучение с подкреплением

Обучение с подкреплением (RL) — это метод машинного обучения, который позволяет агенту учиться методом проб и ошибок, используя поощрения и наказания в качестве сигналов для положительного и отрицательного поведения. . Цель состоит в том, чтобы найти подходящую модель действий, которая максимизирует общее совокупное вознаграждение агента.

Как правило, алгоритмы обучения с подкреплением начинаются с более исследовательского подхода, и по мере лучшего понимания систем вознаграждения алгоритм будет склоняться к эксплуатации. В задачах с подкреплением акт переоценки вероятности в каждом состоянии известен как Марковский анализ. Процесс принятия решений (MDP). MDP состоит из набора конечных состояний среды S, набора возможных действий A(s) в каждом состоянии, функции реального вознаграждения R(s) и модели перехода P( с', с | а).

Компьютерная программа AlphaGoZero использует RL, чтобы победить чемпиона мира в древней китайской игре Го.

Нажмите 💚, если вам понравилась статья. Если у вас есть какие-либо вопросы, вы можете написать в разделе комментариев ниже, и я постараюсь на них ответить.