Вероятность — это то, что мы все сознательно или неосознанно используем в повседневной жизни, но какое отношение имеет вероятность к машинному обучению/глубокому обучению? Что ж, каждый раз, когда мы что-то классифицируем или пытаемся предсказать значение с помощью нейронных сетей или простого SVM, мы на самом деле используем концепцию вероятности, чтобы вывести функцию и вычислить, каким будет предсказанное значение. Итак, давайте начнем с концепций, которые крайне необходимы для ML/DL.

1. Некоторые основные обозначения и их значение

  • P(A ⋃ B) = вероятность события A или события B, или того и другого.
  • P(A ⋂ B) = Вероятность наступления событий A и B.
  • P(A|B) = Вероятность наступления события A при условии, что событие B уже произошло.

Теперь в этом уроке P(A ⋂ B) будет представлено как P(AB).

  • P(A-B) = P(A) - P(AB)

2. Некоторые доказательства

Допустим, есть n случаев эксперимента, в котором А произошло n₁ раз, а Б произошло n₂ раз, а А и В вместе произошли m раз.

  • P(A ⋃ B) = P(A) + P(B) - P(AB)

P(A ⋃ B) можно представить как сумму вероятности трех непересекающихся событий: P(A - B), P(B - A) и P(AB)

P(A ⋃ B) = P(A — B)+P(B — A)+P(AB)

P(A ⋃ B) = P(A) — P(AB) + P(B) — P(AB) + P(AB)

таким образом, P(A ⋃ B) = P(A) + P(B) - P(AB)

  • P(AB) = P(A|B).P(B)

P(A|B) — это вероятность события A при условии, что событие B уже произошло. Учитывая, что событие B уже произошло n₂ способами, событие A ограничивается событием AB, которое может произойти m способами. Таким образом, вероятность А при данном В может быть выражена как:

P(A|B) = m / n₂

⇒P(A|B) = m/n ÷n₂/n

⇒ P(A|B) = P(AB)÷P(B)

or, P(AB) = P(A|B).P(B)

Точно так же P(AB) = P(B|A).P(A)

3. Цепное правило вероятности

Если A₁, A₂, A₃,… Aₙ представляет собой набор из n событий, то совместная вероятность этих событий может быть выражена как:

4. Взаимоисключающие события

  • Два события А и В называются взаимоисключающими, если они не происходят одновременно, то есть одновременно. Другими словами, если A и B исключают друг друга, то P(AB) = 0.
  • Для взаимоисключающих событий P(A ⋃ B) = P(A) + P(B).
  • В общем случае вероятность объединения n взаимоисключающих событий может быть записана как сумма их вероятностей:

5. Независимость от событий

  • Два события называются независимыми, если вероятность их пересечения равна произведению их индивидуальных вероятностей, т. е. P(AB) = P(A).P(B)
  • Это возможно, потому что условная вероятность A при данном B такая же, как и вероятность A , т. е. P(A|B) = P(A) . Точно так же P(B|A) = P(B).

Это означает, что А, вероятно, произойдет в наборе всех событий, поскольку это домен В. Точно так же Б, вероятно, произойдет в наборе всех событий, поскольку это домен А.

Когда два события независимы, ни одно из них не зависит от того факта, что произошло другое событие.

6. Условная независимость событий.

  • Два события A и B условно независимы при наличии третьего события C, если вероятность одновременного возникновения A и B при заданном C может быть записана как: P(AB|C) = P(A|C).P( Б|В).
  • Теперь по свойству факторизации P(AB|C) = P(A|C).P(B|AC).

Таким образом, комбинируя уравнения, мы видим, что P(B|AC) = P(B|C).

Обратите внимание, что события условной независимости A и B не гарантируют, что A и B также независимы.

7. Правило Байеса

Это самая важная основная концепция в машинном обучении/глубоком обучении или даже в обучении с подкреплением. Вся структура ML основана на этом правиле, и почти в каждом сценарии ML / DL / RL мы применяем правило Байеса, чтобы найти решение, то есть векторы параметров.

Так что же это за правило Байеса? Чтобы понять это, давайте возьмем пример.

Возьмем два события А и В,

P(A) → Вероятность наступления события A

P(B) → Вероятность наступления события B

P(AB) → Вероятность одновременного возникновения событий A и B

P(A|B) → Вероятность наступления события A при условии, что событие B уже произошло

P(B|A) → Вероятность наступления события B при условии, что событие A уже произошло

Теперь из раздела 2 мы имеем следующее:

P(AB) = P(A).P(B|A) ….(1)

P(AB) = P(B).P(A|B) ….(2)

Объединяя уравнения (1) и (2), получаем,

P(A).P(B|A) = P(B).P(A|B)

⇒ P(A|B) = (P(A).P(B|A)) ÷P(B)

Таким образом, он описывает вероятность события, основанную на предварительном знании условий, которые могут быть связаны с этим событием. Например, если рак связан с возрастом, то, используя теорему Байеса, возраст человека можно использовать для более точной оценки вероятности того, что у него рак, по сравнению с оценкой вероятности рака, сделанной без знания возраста человека. .

Теперь изучение этих концепций может быть очень утомительной работой, поскольку я не показал вам все, где они применяются в машинном обучении, но подождите, когда я запущу свои дальнейшие руководства по машинному обучению, вы увидите различные приложения эти небольшие теоремы для получения некоторых параметров или признаков, которые будут использоваться для оптимизации алгоритма.

Итак, окончание сегодняшней лекции. Увидимся!!!!.

Спасибо всем, что нашли время и просмотрели этот пост.