Введение в нейронные сети, часть I

Интуиция из логистической регрессии

Цель этой серии статей – дать представление о нейронных сетях высокого уровня с разных точек зрения.

Логистическая регрессия

Напомним, что для бинарной классификации логистическая регрессия подгоняет линейную модель к логарифмическим шансам попадания в данный класс:

Чтобы раскрыть P(Y = 1 | X) для заданного X, мы можем применить сигмовидную функцию 𝞂 к обеим частям уравнения:

Мы можем разделить процесс предсказания класса Y следующим образом:

Граница решения между двумя классами будет там, где P(Y=1) = 1/2. P(Y=1) = 1/2 возможно только тогда, когда 𝞂(…) = 1/2, что само по себе возможно, только если вход в 𝞂 равен 0. Это то есть, когда взвешенная сумма X плюс смещение равна 0, что является уравнением линии.

исключающее ИЛИ

Рассмотрим следующий набор данных:

Ясно, что логистическая регрессия не сможет разделить два класса с линейной функцией X.

Могут быть другие функции (помимо x₁ и x₂), которые мы можем использовать для более точного прогнозирования Y. Обратите внимание, что функция XOR работает, когда один или другой вход (но не оба) равен 1. То есть:

Исключающее ИЛИ(x₁, x₂) = ИЛИ( И(x₁ = 0 , x₂= 1), И( х₁ = 1 , х₂= 0))

= (x₁ = 0 ⋀ x₂= 1) ⋁ (x₁ = 1 ⋀ x₂= 0) = h₁⋁ h₂

Функция ИЛИ линейно разделима!

Это означает, что мы можем разделить классы линейной функцией функций h₁ и h₂:

но мы должны подумать об извлечении функций h₁ и h₂.

Функции автоматического обучения

Вспомним h₁ = (x₁ = 0 ⋀ x₂= 1) и h₂ = (x₁ = 1⋀ x₂= 0), которые сами по себе являются линейными функциями от X, поскольку функция И линейно разделима:

Это означает, что мы могли бы создать модель логистической регрессии, чтобы изучить функцию h₁ из x₁ и x₂:

Аналогично для h₂. Таким образом, мы получаем следующую модель:

Который содержит 3 модели логистической регрессии, которые работают вместе, чтобы предсказать Y:

Это нейронная сеть!

Заключение

Хотя есть надежда, что мы изучим значимые признаки h₁ и h₂, это не гарантируется и случается редко. Вот что сеть узнала на практике:

Если мы посмотрим, как ведут себя h₁ и h₂ для каждого входа, который мы даем сети, мы заметим, что сеть не научилась логической декомпозиции, которую мы описали выше:

Введение в нейронные сети, часть II — интуиция из линейной регрессии

Введение в нейронные сети, часть III — интуиция от SVD и PCA