Основы

Понимание случайных величин и распределения вероятностей

Зачем заботиться о вероятностных функциях массы и плотности в машинном обучении?

Теория вероятностей — это раздел математики, связанный с изучением случайных явлений, и его часто считают одним из фундаментальных столпов машинного обучения. Тем не менее, это огромная область, в которой очень легко заблудиться, особенно если вы самоучка.

В следующих разделах мы рассмотрим некоторые фундаментальные аспекты, особенно относящиеся к машинному обучению, — случайную величину и распределение вероятностей.

Но прежде чем погрузиться с головой в глубины теории вероятностей, давайте попробуем ответить на вопрос, почему эти концепции важны для понимания и почему нас вообще должно это волновать.

Почему Вероятность?

В машинном обучении мы часто имеем дело с неопределенностью и стохастическими величинами, по одной из причин — неполная наблюдаемость — поэтому мы, скорее всего, работаем с выборочными данными.

Теперь предположим, что мы хотим сделать надежные выводы о поведении случайной величины, несмотря на то, что у нас есть только ограниченные данные и мы просто не знаем всей совокупности.

Следовательно, нам нужен какой-то способ обобщить выборочные данные на генеральную совокупность, или, другими словами, нам нужно оценить истинный процесс генерации данных.

Понимание распределения вероятностей позволяет нам вычислить вероятность определенного результата, также учитывая изменчивость результатов. Таким образом, это позволяет нам обобщать выборку на совокупность, оценивать функцию, генерирующую данные, и более точно предсказывать поведение случайной величины.

Знакомство со случайной величиной

Грубо говоря, случайная величина — это переменная, значение которой зависит от результата случайного события. Мы также можем описать его как функцию, которая отображает выборочное пространство в измеримое пространство (например, действительное число).

Предположим, у нас есть выборочное пространство, содержащее 4 учащихся {A, B, C, D}. Если мы теперь случайным образом выберем student A и измерим рост в сантиметрах, мы можем думать о random variable (H) как о функции с входом student и выходом height как вещественным числом.

Мы можем визуализировать этот небольшой пример следующим образом:

В зависимости от результата — какой ученик выбран случайным образом — наша случайная величина (H) может принимать разные состояния или разные значения роста в сантиметрах.

Случайная величина может быть как дискретной, так и непрерывной.

Если наша случайная величина может принимать только конечное или счетно бесконечное число различных значений, то она дискретна. Примеры дискретной случайной величины включают количество учеников в классе, правильность ответов на вопросы теста, количество детей в семье и т. д.

Наша случайная величина, однако, непрерывна, если между любыми двумя значениями нашей переменной находится бесконечное число других допустимых значений. Мы можем думать о таких величинах, как давление, высота, масса и расстояние, как о примерах непрерывных случайных величин.

Когда мы связываем нашу случайную величину с распределением вероятностей, мы можем ответить на следующий вопрос: насколько вероятно, что наша случайная величина примет определенное состояние? Что в основном то же самое, что и вопрос о вероятности.

Теперь у нас остался один вопрос — что такое распределение вероятностей?

Распределение вероятностей

Описание вероятности того, что случайная величина примет одно из своих возможных состояний, может быть дано распределением вероятностей. Таким образом, распределение вероятностей — это математическая функция, которая дает вероятности различных исходов эксперимента.

В более общем виде ее можно описать как функцию

который отображает входное пространство A, относящееся к выборочному пространству, в действительное число, а именно в вероятность.

Чтобы приведенная выше функция характеризовала распределение вероятностей, она должна соответствовать всем аксиомам Колмогорова:

  1. Неотрицательность
  2. Вероятность не превышает 1
  3. Аддитивность любых счетных непересекающихся (взаимоисключающих) событий


То, как мы описываем распределение вероятностей, зависит от того, является ли случайная величина дискретной или непрерывной, что приводит к функции массы или плотности вероятности соответственно.

Функция массы вероятности

Функция массы вероятности (PMF) описывает распределение вероятности по дискретной случайной величине. Другими словами, это функция, которая возвращает вероятность того, что случайная величина точно равна определенному значению.

Возвращаемая вероятность лежит в диапазоне [0, 1], а сумма всех вероятностей для каждого состояния равна единице.

Давайте представим себе график, где ось x описывает состояния, а ось y показывает вероятность определенного состояния. Думая таким образом, мы можем представить себе вероятность или PMF как гистограмму, расположенную поверх состояния.

Далее мы узнаем о трех распространенных дискретных распределениях вероятностей: распределении Бернулли, биномиальном и геометрическом.

Распределение Бернулли

Распределение Бернулли, названное в честь швейцарского математика Якоба Бернулли, представляет собой дискретное распределение вероятностей одной бинарной случайной величины, которая принимает значение либо 1, либо 0.

Грубо говоря, мы можем думать о распределении Бернулли как о модели, дающей набор возможных результатов для одного эксперимента, на который можно ответить простым вопросом «да-нет».

Более формально функцию можно сформулировать в виде следующего уравнения

который в основном оценивается как p if k=1 или (1-p) if k=0. Таким образом, распределение Бернулли параметризуется всего лишь single parameter p.

Предположим, мы подбрасываем правильную монету один раз. Вероятность выпадения орла равна P(Heads) = 0.5. Визуализируя PMF, мы получаем следующий график:

Примечание. Распределение Бернулли принимает значение 1 или 0, что делает его особенно полезным в качестве индикатора или фиктивной переменной.

Поскольку распределение Бернулли моделирует только одно испытание, его также можно рассматривать как частный случай биномиального распределения.

Биномиальное распределение

Биномиальное распределение описывает дискретное распределение вероятностей количества успешных попыток в последовательности из n независимых испытаний, каждое из которых имеет бинарный результат. Успех или неудача определяется вероятностью p или (1-p)соответственно.

Таким образом, биномиальное распределение параметризуется параметрами

Более формально биномиальное распределение можно выразить следующим уравнением:

Успех k определяется вероятностью p в степени k, тогда как вероятность неудачи определяется как (1 -p) в степени n минус k, что в основном равно количеству испытаний минус одно испытание, в котором мы получаем k.

Поскольку событие успеха kможетпроизойти в любом месте из nиспытаний, мы имеем “n выбрать k” способы распространения успеха.

Давайте возьмем наш предыдущий пример с подбрасыванием монеты и построим его.

Теперь мы собираемся трижды подбросить честную монету, интересуясь случайной величиной, описывающей количество выпавших орлов.

Если мы хотим вычислить вероятность того, что монета выпадет орлом два раза, мы можем просто использовать приведенное выше уравнение и выбрать значения

что приводит к вероятности P(2) = 0.375. Если мы поступим таким же образом для остальных вероятностей, мы получим следующее распределение:

Геометрическое распределение

Предположим, нас интересует, сколько раз мы должны подбросить монету, пока она не выпадет орлом в первый раз.

Геометрическое распределение дает вероятность первого успеха, требующего n независимых испытаний, с вероятностью успеха p.

Более формально это можно сформулировать как

который вычисляет вероятность количества испытаний, необходимых до и включая событие успеха.

Следующие предположения должны быть верны, чтобы рассчитать геометрическое распределение:

  1. Независимость
  2. В каждом испытании возможны только два исхода
  3. Вероятность успеха одинакова для каждого испытания

Давайте визуализируем геометрическое распределение, ответив на вопрос о вероятности количества попыток, необходимых для того, чтобы монета впервые выпала орлом.

Функция плотности вероятности

В предыдущих разделах мы узнали, что случайная величина может быть дискретной или непрерывной. Если оно дискретно, мы можем описать распределение вероятности с помощью функции массы вероятности.

Теперь мы имеем дело с непрерывными переменными — следовательно, нам нужно описать распределение вероятностей с помощью функции плотности вероятности (PDF).

PDF, в отличие от PMF, не дает вероятности того, что случайная величина напрямую принимает определенное состояние. Вместо этого он описывает вероятность приземления внутри бесконечно малой области. Другими словами, PDF описывает вероятность того, что случайная величина находится между определенным диапазоном значений.

Чтобы найти фактическую массу вероятности, нам нужно проинтегрировать, что дает площадь под функцией плотности, но выше оси x.

Функция плотности вероятности должна быть неотрицательной, а ее интеграл должен быть равен 1.

Одним из наиболее распространенных непрерывных распределений вероятностей является гауссово или нормальное распределение.

Гауссово распределение

Распределение Гаусса часто считается разумным выбором для представления случайной величины с действительным знаком, распределение которой неизвестно.

В основном это связано с центральной предельной теоремой, которая, грубо говоря, утверждает, что среднее значение многих независимых случайных величин с конечным средним значением и дисперсией само по себе является случайной величиной, которая нормально распределяется по мере увеличения числа наблюдений.

Это особенно полезно, поскольку позволяет нам моделировать сложные системы с распределением по Гауссу, даже если отдельные части имеют более сложную структуру или распределение.

Еще одна причина, по которой его часто выбирают для моделирования распределения по непрерывной переменной, заключается в том, что он вводит наименьшее количество предварительных знаний.

Более формально распределение Гаусса можно сформулировать как

где параметр µ — это среднее значение, а σ² описывает дисперсию.

Проще говоря, среднее значение будет отвечать за определение центрального пика колоколообразного распределения, тогда как дисперсия или стандартное отклонение определяет его ширину.

Мы можем визуализировать нормальное распределение следующим образом:

Заключение

В этой статье мы говорили о случайных величинах, распределениях вероятностей, о том, как они связаны и как мы можем их интерпретировать. Мы также различали дискретные и непрерывные случайные величины, вводя некоторые из наиболее распространенных функций массы вероятности и плотности.

Хотя можно применять алгоритмы обучения, не зная основ распределения вероятностей, и при этом получать достойные результаты — более глубокое понимание предмета позволит нам делать лучший выбор, предположения и прогнозы относительно истинного поведения случайной величины.

Спасибо за чтение! Обязательно оставайтесь на связи и следите за мной здесь на Medium, Kaggle или просто скажите Привет на LinkedIn.

Понравилась статья? Станьте Medium Member и продолжайте учиться без ограничений. Я получу часть вашего членского взноса, если вы перейдете по следующей ссылке, без каких-либо дополнительных затрат с вашей стороны.



Ссылки/Дополнительные материалы: