В этой статье мы узнаем:

Функция активации

Линейная функция активации

Бинарная функция активации

Нелинейная функция активации

  1. Сигмовидная функция активации

2. танх

3. РеЛУ

4. Дырявый ReLU

Давайте начнем

Что такое функция активации

Это то, что используется для определения выходных данных нейронной сети. Функция активации — это нелинейная функция, которая связана с каждым нейроном и гарантирует, активирован ли нейрон или нет.

Почему функция активации

Если нейрон не активирован, мы используем другую технику для активации нейрона. Также он используется для нормализации данных от 1 до 0 или от -1 до 1.

Существует три типа функции активации

Линейная или идентификационная функция активации

На приведенном ниже рисунке мы видим, что он является линейным, и поэтому выходной сигнал не находится между каким-либо определенным диапазоном.

Уравнение линейной функции активации: f(x)=x . Следовательно, мы можем ясно видеть, что диапазон равен (от -бесконечности до бесконечности). И у него очень ограниченные возможности для обработки сложных данных. Поэтому не рекомендуется использовать функцию поиска отношения ч/б комплексных данных.

например, если мы используем эту функцию, чтобы выяснить взаимосвязь данных любого изображения, она не сможет этого сделать наверняка. Мы можем использовать его для целей преобразования.

Бинарная функция активации

Из этого рисунка мы можем понять, что если значение x ‹ 0, то оно всегда будет 0, а если значение x => 0, то оно всегда будет 1.

Поэтому, если мы попытаемся найти дифференциал для какой-либо константы, он всегда должен быть равен 0. И по этому условию наша нейронная сеть столкнется с ситуацией, называемой мертвым нейроном (мы узнаем позже). В вычислительном отношении это менее затратно по сравнению с линейным, потому что всегда дает нам только 0 или 1 .

3. Функция нелинейной активации

Это наиболее часто используемая функция активации, и она помогает сделать наш график примерно таким

Функция нелинейной активации позволяет модели легко обобщать или адаптировать различные данные и различать выходные данные. В теории обратного распространения мы привыкли дифференцировать наши выходные данные, чтобы вес изменялся соответственно, и мы могли достичь глобальных минимумов, что возможно с хорошей эффективностью в нелинейной функции активации.

Теперь мы готовы погрузиться в разные — разные типы нелинейной функции активации.

1. Функция активации сигмовидной мышцы

Это S-образная функция активации, которая не центрирована на нуле. Ненулевой центр означает, что он никогда не проходит через 0, и когда это происходит, требуется больше времени для вычислений, поскольку в результате требуется больше времени сходимости, и это вызывает трудности с достижением точки сходимости (глобальные минимумы).

В основном он находится в диапазоне от 0 до 1, а когда мы находим его производную, то он находится в диапазоне от 0 до 0,25 в ч/б, как видно из рисунка. Сигмовидная функция активации используется для определения вероятности выхода. Основная проблема Sigmoid заключается в том, что он вызывает проблему исчезающего градиента, что означает, что значение цепочки очень мало, и из-за этого он показывает очень небольшие изменения или незначительные изменения.

Преимущество: Плавный градиент, предотвращающий «скачки» выходных значений. Четкие прогнозы, т.е. очень близкие к 1 или 0.

Недостаток: Склонен к исчезновению градиента. Выход функции не центрирован по нулю

2. Функция активации Таня

Это импровизированная версия сигмоида, и ее основное преимущество заключается в том, что она центрирована по 0, что означает, что большая часть данных варьируется между левым или правым от 0 и образует колоколообразную кривую. И это вычислительно менее затратно, чем сигмоид

Функция tanh в основном используется для классификации двух классов. В общих задачах двоичной классификации функция tanh используется для скрытого слоя, а сигмоидальная функция используется для выходного слоя. Это также вызывает проблему исчезающего градиента.

Преимущество: он плавный и вычислительно лучше, чем Sigmoid. Диапазоны ч/б от -1 до 1, а производная — диапазоны ч/б от 0 до 1.

Недостаток: Склонен к исчезновению градиента.

3. Функция активации ReLU (выпрямленного линейного блока).

Это одна из самых популярных функций активации во всем мире. ReLU лучше, чем Sigmoid и Tanh, потому что он преодолевает недостаток проблемы исчезающего градиента.

ReLU в основном говорит, что если выход любого нейрона меньше 0, то он всегда должен быть равен нулю, а если он больше 0, то он зависит от значения выхода. Однако при обратном распространении она выдает некоторое линейное значение, которое вызывает изменения в обновлении веса и помогает быстрее достигать глобальных минимумов по сравнению с двумя предыдущими функциями активации.

Преимущество: устраняет проблему исчезающего градиента. Расчет намного быстрее.

Недостаток: вызывает гибель нейронов. Это не нулевая центрическая функция.

4. Дырявый ReLU

Основная проблема в ReLU заключается в том, что когда значение вывода ‹0, тогда оно всегда будет равно нулю, что вызывает проблему мертвых нейронов. Мертвый нейрон означает, что во время обратного распространения, когда новый вес равен старому весу, это означает, что наши модели ничему не научились и никогда не достигают глобальных минимумов. Что касается этой проблемы, пришел исследователь и опубликовал статью о Leaky ReLU.

Они сказали, что когда значение выхода ниже 0, мы должны умножать 0,01x вместо 0, поэтому основной недостаток устранен. Здесь 0,01 — обучаемый параметр. А диапазон Leaky ReLU равен (от -бесконечности до бесконечности).

Преимущество: решает проблему мертвых нейронов.

Недостаток: вызывает проблему исчезающего градиента, когда выход меньше нуля.

Я расскажу об оставшихся темах функции активации в моем следующем посте. Следите за мной на среде, Твиттере, LinkedIN.

Пожалуйста, поделитесь им! Счастливого обучения!