Логистическая регрессия

Логистическая регрессия является широко используемой моделью классификации. В этой модели зависимая переменная или целевое значение представляет собой дискретное двоичное значение, т. е. 1 или 0, предполагающее успешное или неудачное выполнение, выигрыш или проигрыш, истинное или ложное.

Хотя это классификационная модель, термин «регрессия» в ее названии предполагает, что эта модель работает аналогично модели регрессии, которая является прогностическим моделированием. Вместо подгонки линии регрессии (точно так же, как при линейной регрессии) мы подгоняем S-кривую, известную как сигмовидная кривая, которая предсказывает два значения 0 или 1. Это Кривая S указывает на максимальную вероятность события.

УРАВНЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

Выведем логистическое уравнение из уравнения прямой. пусть есть две функции x1 и x2, поэтому линейная связь между функциями и целевым значением будет y = Ax1 + Bx2 + C, но диапазон y здесь от отрицательной бесконечности до бесконечности.

Для логистической регрессии нам нужно, чтобы y был равен нулю или единице, поэтому мы манипулируем уравнением как y/(1-y), теперь диапазон от нуля до бесконечности, чтобы сделать диапазон от нуля до единицы, мы логарифмируем, и требуемое логистическое уравнение задается как log(y/(1-y))

СИГМОИДНАЯ ВЕРОЯТНОСТЬ

Вероятность цели y ограничена 0 или 1, это называется сигмовидной вероятностью. Математически,

здесь «t» — значения данных, т. е. значения признаков «X».
S(t) представляет собой вероятность быть истинным или ложным, то есть значение зависимой переменной «Y»

Эта математическая функция дает кривую «S», которая имеет конечный предел от 0 до 1, 0, когда «t» приближается к -бесконечности, и 1, когда «t» приближается к +бесконечность

МАТРИЦА ЗАМЕДЛЕНИЙ

Матрица путаницы — это матрица, которая используется для оценки эффективности модели классификации. Эта матрица сравнивает прогнозируемые значения целевой переменной с ее фактическими значениями.

TN: True Negative (количество фактических ложных предсказаний, которые были предсказаны правильно)
TP: True Positive (количество фактических истин, которые были предсказаны правильно)
FN: False Negative (количество предсказанных ложных результатов, которые на самом деле верны)
FP: False Positive (количество предсказанных истин, которые на самом деле ложны)

ЗНАЧЕНИЕ МАТРИЦЫ СМЕШАННОСТИ

Матрица путаницы используется для определения некоторых важных показателей, таких как точность, достоверность, полнота/чувствительность и показатель f-1.

Точность

Это просто означает, что насколько точно модель предсказала целевые значения, определяется формулой:

Точность

Это относится к правильности, достигнутой в предсказании, оно просто говорит нам о фактических положительных результатах из общего числа предсказанных положительных результатов, это дается формулой:

Вспомнить

Он говорит нам о чувствительности модели, определяя, сколько фактических положительных результатов предсказано правильно. Он рассчитывается по формуле:

Оценка F-1

Это помогает нам одновременно оценить отзыв и точность для сравнения двух моделей, он рассчитывается по формуле: