Любой человек, имеющий отношение к области анализа данных, наверняка сталкивался с очень простым, но мощным методом классификации, называемым логистической регрессией.

Функция гипотезы (или уравнение модели), которую логистическая регрессия извлекает из заданных данных, выглядит следующим образом:

где «x» представляет собой вектор экземпляра / точки данных, а функция гипотезы h (x) представляет вероятность принадлежности «x» к определенному классу.

Цель этой статьи - дать легкую интуицию о происхождении вышеуказанной гипотезы с помощью некоторых основных математических методов и линейного дискриминанта.

Первый вопрос! что такое линейный дискриминант?

Так же, как линейная регрессия, где мы прогнозируем числовое целевое значение путем подбора линейной функции, логистическая регрессия также подгоняет линейную модель к заданным данным, но целевая функция (которая должна быть оптимизирована алгоритмом) в обоих случаях различается.

Мы увидим, что я имею в виду под «линейным» в контексте логистической регрессии.

Линейная функция, которую использует логистическая регрессия, есть не что иное, как линейный дискриминант (линейная граница решения). Таким образом, мы можем сказать, что любая линейная функция f (x), которая используется для разделения целевых классов (с учетом помеченных данных), является линейной дискриминантной функцией.

На рисунке 2 мы видим, что линейный дискриминант f (x) используется для разделения положительных и отрицательных классов.

Здесь «x» - это двумерный вектор атрибутов; х = (х1, х2)

Линейная дискриминантная функция {f (x) = w0 + w1 * x1 + w2 * x2} получается путем оптимизации некоторой целевой функции. Эта целевая функция зависит от алгоритма / метода. Для логистической регрессии параметры / веса w0, w1, w2,… определяются путем минимизации логарифмических потерь или двоичной функции потерь кросс-энтропии. Мы не собираемся здесь обсуждать целевые функции.

Как только мы определим линейный дискриминант f (x) для наших данных, его можно будет использовать для нескольких целей, например:

  • Мы можем выполнить четкую классификацию классов для новых экземпляров данных (тестовая выборка) на основе значения f (x). На рисунке 2 для новой точки данных, если f (x)> 0, то это классифицируется как положительный экземпляр, если f (x) ‹0, то отрицательный экземпляр, и для f (x) = 0 мы можем выполнить случайное присвоение. .
  • Мы можем ранжировать / оценивать точки данных на основе их расстояния от линейного дискриминанта. Это может быть полезно во многих случаях использования, например. моделирование кредитного риска или реакция клиента на маркетинговую кампанию, где более высокий балл может означать, что клиент имеет более высокую вероятность дефолта или что клиент с высокой вероятностью отреагирует на маркетинговую кампанию соответственно.

Во многих случаях нам не нужна четкая классификация или ранжирование экземпляров, скорее нам нужна классовая вероятность того, что новый экземпляр принадлежит определенному интересующему классу. Это именно то, что выводит гипотеза логистической регрессии для нового экземпляра.

Итак, теперь наша цель - усилить силу линейного дискриминанта и использовать некоторые математические модификации f (x), чтобы мы могли получить вероятность класса любого нового экземпляра.

Преобразование линейной дискриминантной функции f (x):

Значение функции f (x) (которое можно интерпретировать как расстояние экземпляра от линейного дискриминанта) может дать нам интуитивное представление о вероятности класса экземпляра. Например, если экземпляр находится дальше от f (x) (скажем, по направлению к положительному классу), то у него, вероятно, будет более высокая вероятность принадлежности к положительному классу.

F (x) - неограниченная функция, т.е. она может изменяться от -∞ до + ∞. Поэтому нам нужно выполнить определенные преобразования, чтобы сделать его диапазон от 0 до 1 (аналогично диапазону вероятности).

Чтобы решить эту проблему, мы можем использовать понятие «шансов» из теории вероятностей. Мы определяем «шансы» события как отношение вероятности наступления события к вероятности ненаступления события.

Конкретно:

где: P (E) = вероятность наступления события

Например. Во время игры в карты, если моя вероятность выигрыша составляет 0,25, тогда мои шансы на выигрыш равны 0,25 / 0,75 = 1: 3.

Теперь посмотрим, как эти шансы меняются относительно вероятностей (0, 1).

Из таблицы 1 мы легко можем видеть, что «шансы» могут варьироваться от 0 до ∞. Мы не можем аппроксимировать f (x) с помощью «шансов», нам нужно дополнительно изменить «шансы», чтобы получить желаемый диапазон как f (x).

Здесь мы можем использовать свойство функций «log» (рисунок 3). Поскольку область определения лог-функции составляет от 0 до ∞, а диапазон - от -∞ до ∞.

Следовательно, логарифм (шансы) будет иметь диапазон от -∞ до ∞ (таблица-2).

Это все, что мы хотели, нам нужна была какая-то функция, которая могла бы имитировать диапазон нашей функции линейного дискриминанта f (x). Теперь мы можем интерпретировать вывод f (x) как логарифм (шансы).

Для данного набора данных двоичных классов (положительных и отрицательных) мы определяем «шансы» как:

Где p (x) = вероятность принадлежности экземпляра x к положительному классу.

Следовательно, математически мы можем записать как:

Функция h (x) является функцией гипотезы алгоритма логистической регрессии. Вот как мы можем представить или интерпретировать гипотезу логистической регрессии.

Теперь мы можем увидеть изменение h (x) относительно линейной дискриминантной функции f (x) графически на рисунке 4.

S-образная кривая (на рисунке 4) называется кривой «сигмовидной» активации. Эта функция активации сигмовидной формы сжимает любое числовое значение в диапазоне вероятности (от 0 до 1) и широко используется в области науки о данных.

На этом я завершаю свою статью о том, как мы интуитивно интерпретируем гипотезу логистической регрессии.

Я старался, чтобы эта статья была очень простой и как можно более подробной, чтобы каждый мог понять основную идею, которую я пытаюсь донести.

Спасибо за чтение, ребята !!

Удачного обучения.