Проблемы машинного обучения обычно можно разделить на 3 типа:

Классификация, регрессия и кластеризация

В то время как классификация и регрессия являются методами обучения с учителем, кластеризация — это метод обучения без учителя. Что такое контролируемое и неконтролируемое обучение? Давайте углубимся в это.

Обучение с учителем. Обучение с учителем — это подход к машинному обучению, который определяется использованием помеченных наборов данных. Эти наборы данных предназначены для обучения алгоритмов или «контроля» за их классификацией данных или точным прогнозированием результатов.

Обучение без учителя.Обучение без учителя использует алгоритмы машинного обучения для анализа и кластеризации неразмеченных наборов данных. Эти алгоритмы обнаруживают скрытые закономерности в данных без вмешательства человека (поэтому они «неконтролируемы»).

Теперь давайте углубимся в контролируемые методы обучения — классификацию и регрессию.

Классификация -

Как следует из названия, классификация — это тип машинного обучения, при котором вы прогнозируете или классифицируете категорию/метку. Он может иметь только категориальные выходы.

Например, если значение прогноза имеет тенденцию быть категорией, такой как да/нет, положительное/отрицательное и т. д., то оно подпадает под проблему типа классификации в машинном обучении.

Пример: дано предложение, предсказывающее, будет ли отзыв отрицательным или положительным. Или Учитывая атрибуты учащегося, предсказать, принадлежат ли они к классу A или классу B.

Регрессия —

Подобно типу классификации, единственная разница здесь в том, что значение прогноза имеет тенденцию к непрерывному значению. В этих случаях это подпадает под проблему типа регрессии в машинном обучении.

Пример: указание названия района, размера земли и т. д. в качестве характеристик и прогнозирование ожидаемой стоимости земли. Стоимость земли может быть непрерывным числовым значением, а не категориальным значением.

Далее давайте рассмотрим метод обучения без учителя — кластеризацию.

Кластеризация. При кластеризации, поскольку нам неизвестны метки/категории, мы находим сходство в наборе данных, вычисляя евклидово (или любое другое расстояние) расстояние между набором данных и кластером/группой. их вместе. Проще говоря, группировка набора точек в заданное количество кластеров.

Пример. При наличии -3, -4, -8, -9, -12, -13, 6,6, 6,7 и количестве кластеров, равном 4, система машинного обучения может разделить данный набор на кластер 1– 3, -4 и кластер 2–8, -9, кластер 3–12, -13 и кластер 4–6,6, 6,7, которые представлены четырьмя кластерами ниже.