Случайные переменные следуют различным типам распределения в вероятностном пространстве, которое определяет их поведение и помогает в предсказаниях.

Содержание:

  • Вступление
  • Гауссово / нормальное распределение
  • Биномиальное распределение
  • Распределение Бернулли
  • Журнал нормального распределения
  • Распределение степенного закона
  • Использование дистрибутивов

Вступление

Всякий раз, когда мы сталкиваемся с каким-либо вероятностным экспериментом, мы говорим о случайной величине, которая есть не что иное, как переменная, которая принимает ожидаемые результаты этого эксперимента. Например, когда мы бросаем кости, мы ожидаем значение из набора {1,2,3,4,5,6}. Итак, мы определяем случайную переменную X, которая принимает эти значения каждый раз, когда мы делаем бросок.

В зависимости от эксперимента случайная величина может принимать либо дискретные значения, либо непрерывные значения. Итак, этот пример игральных костей представляет собой дискретную случайную величину, поскольку она принимает дискретное значение. Но предположим, что мы говорим о цене домов в определенном городе, тогда соответствующая случайная величина может принимать непрерывные значения (например, 550 000 долларов США, 1 200 523,54 доллара США и т. Д.).

Когда мы строим график этих ожидаемых значений случайной величины в зависимости от частоты их появления в эксперименте, мы получаем график распределения частот в виде гистограмм. После использования оценки плотности ядра для сглаживания этих гистограмм мы получаем тонкую кривую. Эта кривая называется «Распределение».

Гауссово / нормальное распределение

Гауссово / нормальное распределение - это функция непрерывного распределения вероятностей, в которой случайная величина находится симметрично относительно среднего (μ) и дисперсии (σ²).

Среднее (μ): определяет положение пика на оси X. Кроме того, все данные симметрично расположены по обе стороны от линии X = μ. Как вы можете видеть на изображении, синяя, красная и желтая кривые расположены по обе стороны от X = 0, но зеленая кривая имеет центр в X = -2. Таким образом, глядя на эти кривые, мы можем легко сказать, что среднее значение синего, красного и желтого равно 0, а среднее значение зеленого равно -2.

Дисперсия (σ²): определяет ширину и высоту кривой. Дисперсия - это не что иное, как квадрат стандартного отклонения. Обратите внимание, что здесь на изображении приведены значения σ² для всех четырех кривых. Теперь, не глядя на значения, мы можем легко сказать, что желтая кривая имеет самую низкую высоту, а максимальный спред и спред можно интуитивно понять как стандартное отклонение. Таким образом, мы можем сказать, что Желтая кривая имеет максимальную дисперсию из четырех. Аналогично синяя кривая имеет минимум.

Если мы положим μ = 0 и σ = 1, нормальное распределение будет называться Стандартное нормальное распределение или Стандартная нормальная переменная, а общее выражение изменится на:

Теперь можно представить, что означает знаменатель? Это необходимо для того, чтобы площадь под кривой для нормального распределения всегда была равна 1.

Мы получаем много полезной информации о сегментации данных из нормального распределения. Посмотрите на изображение:

Как видите, в этом распределении сохраняется 34,1% общей массы, если мы сдвинем на одно стандартное отклонение вправо от среднего, (34,1 + 13,6) = 47,7% массы, если мы сдвинем 2 стандартных отклонения вправо от среднего значения и 49,8%, если мы сдвинем 3 стандартных отклонения вправо. . Поскольку эта кривая симметрична, она верна с обеих сторон.

Итак, теперь мы знаем, следует ли какое-либо свойство нормальному распределению, например веса населения в городе, мы можем легко оценить множество значений, фактически не выполняя обширного анализа. В этом сила нормального распределения.

Биномиальное распределение

Как видно из названия, есть «Би». Таким образом, это «Би» обозначает 2 исхода эксперимента: «Да» или «Нет», «Пройден» или «Не прошел», 1 или 0 и т. Д. Проще говоря, это распределение представляет собой распределение нескольких повторных экспериментов и их вероятностей, где ожидаемый результат либо «Успех», либо «Неудача».

Как вы можете видеть на изображении, это дискретная функция распределения вероятностей. Основные параметры: n (количество попыток) и p (вероятность успеха).

Теперь предположим, что у нас есть вероятность p УСПЕХА события, тогда вероятность НЕУДАЧИ равна (1-p), и предположим, что вы повторяете эксперимент n раз (количество испытаний = n). Тогда вероятность получить k успехов в n независимых испытаниях Бернулли равна:

где k принадлежит диапазону [0, n] и:

Примечание. В следующем разделе мы увидим, что такое испытание Бернулли.

Позвольте задать простой вопрос. Предположим, идет матч по крикету между Индией и Австралией. Рохит Шарма уже набрал 151 *, и по своему опыту вы знаете, что после 150 у Рохита вероятность выпадения шестерки составляет 0,3. Все закончилось, и ваш отец спрашивает вас, каковы шансы, что Рохит наберет 4 шестерки. Тогда как бы вы узнали?

Это типичный пример биномиальных испытаний. Итак, решение:

Примечание: 6 и 4 в большой скобке - это не что иное, как 6C4, который представляет собой комбинацию 4 шестерок на 6 шаров.

Распределение Бернулли:

В биномиальном распределении у нас есть особый случай, известный как распределение Бернулли, где n = 1, что означает, что в этом биномиальном эксперименте проводится только одно испытание. Когда мы помещаем n = 1 в PMF (функция массы вероятности) бинома, nCk будет равно 1, и функция станет:

где k = {0,1}.

А теперь давайте возьмем матч между Индией и Австралией. Скажем, когда Рохит достигает тонны, шансы Индии на победу равны 0,7. Так что вы можете просто сказать своему отцу, что вероятность победы Индии составляет 70%. Это было не что иное, как очень простое испытание Бернулли.

Журнал нормального распределения

Мы видели природу нормального распределения, и на первый взгляд многие скажут, что логарифмическая нормальная кривая также в некоторой степени дает представление о нормальном распределении, которое смещено вправо.

Предположим, что существует случайная величина X, которая следует логарифмически нормальному распределению со средним значением = μ и дисперсией = σ². X имеет всего n возможных значений (x1, x2, x3… ..xn). Теперь возьмите натуральный логарифм по всем значениям X и создайте новую случайную величину Y = [log (x1), log (x2), log (x3) …… log (xn)]. Эта случайная величина Y будет нормально распределена.

Другими словами, если существует нормальное распределение Y, и мы берем экспоненциальную функцию X = exp (Y), тогда X будет следовать логарифмическому нормальному распределению. Говоря простым языком, как следует из названия, логарифмическое нормальное распределение - это распределение случайной величины, естественный логарифм которой является нормально распределенным.

Он также имеет те же параметры, что и гауссовский: среднее (μ) и Дисперсия (σ²).

Степенной закон / Распределение Парето

Степенной закон - это соотношение между двумя величинами, при котором изменения одной величины пропорционально изменяют другую величину. Он следует правилу 80–20, которое гласит: в верхних 20% значений мы найдем примерно 80% массовой плотности. Как вы можете видеть на изображении, немного более темная левая часть составляет 80% массы, а правая ярко-желтая часть составляет 20%.

Когда распределение вероятностей следует степенному закону, мы говорим, что это распределение Парето.

Распределение Парето контролируется двумя параметрами: x_m и α.

x_m можно рассматривать как среднее, которое контролирует масштаб кривой, а α можно рассматривать как σ, которое контролирует форму кривой. (Примечание: x_m не означает, а α - не σ. Для понимания я говорю интуитивно.)

Теперь, как мы видим на изображении, все четыре кривые имеют пик, расположенный в точке x = 1. Итак, можно сказать, что x_m = 1 для всех кривых.

Как мы можем видеть на изображении, при увеличении α пик также растет, и в крайнем случае, когда α стремится к бесконечности, кривая превращается в просто вертикальную линию. Это называется дельта-функцией Дирака.

По мере уменьшения α плоскостность кривой увеличивается.

Использование дистрибутивов

Если мы знаем, что определенное свойство следует за определенным расстоянием, мы можем взять образец и найти задействованные параметры, а затем построить функцию распределения вероятностей, чтобы ответить на множество вопросов.

Например: в городе с населением 100 000 человек мы должны провести анализ роста, но мы не можем провести опрос для такой большой популяции. Итак, мы выбираем случайную выборку и находим ее среднее значение выборки и стандартное отклонение выборки.

Теперь предположим, что врач или эксперт говорят нам, что рост соответствует нормальному распределению. Тогда мы легко сможем ответить на многие вопросы.

Использованная литература: