Интуиция из логистической регрессии
Цель этой серии статей – дать представление о нейронных сетях высокого уровня с разных точек зрения.
Логистическая регрессия
Напомним, что для бинарной классификации логистическая регрессия подгоняет линейную модель к логарифмическим шансам попадания в данный класс:
Чтобы раскрыть P(Y = 1 | X) для заданного X, мы можем применить сигмовидную функцию 𝞂 к обеим частям уравнения:
Мы можем разделить процесс предсказания класса Y следующим образом:
Граница решения между двумя классами будет там, где P(Y=1) = 1/2. P(Y=1) = 1/2 возможно только тогда, когда 𝞂(…) = 1/2, что само по себе возможно, только если вход в 𝞂 равен 0. Это то есть, когда взвешенная сумма X плюс смещение равна 0, что является уравнением линии.
исключающее ИЛИ
Рассмотрим следующий набор данных:
Ясно, что логистическая регрессия не сможет разделить два класса с линейной функцией X.
Могут быть другие функции (помимо x₁ и x₂), которые мы можем использовать для более точного прогнозирования Y. Обратите внимание, что функция XOR работает, когда один или другой вход (но не оба) равен 1. То есть:
Исключающее ИЛИ(x₁, x₂) = ИЛИ( И(x₁ = 0 , x₂= 1), И( х₁ = 1 , х₂= 0))
= (x₁ = 0 ⋀ x₂= 1) ⋁ (x₁ = 1 ⋀ x₂= 0) = h₁⋁ h₂
Функция ИЛИ линейно разделима!
Это означает, что мы можем разделить классы линейной функцией функций h₁ и h₂:
но мы должны подумать об извлечении функций h₁ и h₂.
Функции автоматического обучения
Вспомним h₁ = (x₁ = 0 ⋀ x₂= 1) и h₂ = (x₁ = 1⋀ x₂= 0), которые сами по себе являются линейными функциями от X, поскольку функция И линейно разделима:
Это означает, что мы могли бы создать модель логистической регрессии, чтобы изучить функцию h₁ из x₁ и x₂:
Аналогично для h₂. Таким образом, мы получаем следующую модель:
Который содержит 3 модели логистической регрессии, которые работают вместе, чтобы предсказать Y:
Это нейронная сеть!
Заключение
Хотя есть надежда, что мы изучим значимые признаки h₁ и h₂, это не гарантируется и случается редко. Вот что сеть узнала на практике:
Если мы посмотрим, как ведут себя h₁ и h₂ для каждого входа, который мы даем сети, мы заметим, что сеть не научилась логической декомпозиции, которую мы описали выше:
Введение в нейронные сети, часть II — интуиция из линейной регрессии
Введение в нейронные сети, часть III — интуиция от SVD и PCA