Руководство для начинающих по теореме Байеса

Фонд классификации текстов (NLP)

Целью этого руководства является объяснение математической конструкции теоремы Байеса на наглядном примере.

Давайте начнем.

История — Ваши ежегодные оценочные рейтинги

Считайте, что вы являетесь частью инновационной команды в вашей организации. За последние десять лет вашей службы вы шесть лет лидировали в рейтинге. Учитывая, что оценки этого года не за горами, вам любопытно, станете ли вы снова лучшим оценщиком или нет.

В то время как волнение нарастает, вы знаете, что вы получили награду за лучшую инновацию, которая должна работать в вашу пользу. Но, учитывая, что это скорее субъективное мнение, вы хотите, чтобы кто-то помог вам доказать это математически. Вы обращаетесь к своему другу из команды специалистов по обработке и анализу данных и ищете его помощи.

Он уверяет вас, что может помочь, но запрашивает дополнительную информацию. Его вопросы и ваши ответы были следующими:

Из шести вы были лучшими, сколько раз вы получали награду за инновации? — Вы ответили 5
Из четырех вы не были лучшими, сколько раз вы его получали? Вы ответили 1

В тот момент, когда он получает эти ответы, он делает некоторые расчеты и подтверждает, что у вас есть 83,3% шансов снова стать лучшим оценщиком. Вау, но как?

Подход логически

Понимание предыдущего

В качестве первого шага давайте проигнорируем информацию о нашей награде за инновации. В приведенной ниже таблице содержится информация о последних десяти годах вашей службы и перечислены годы, когда вы были лучшим оценщиком.

Если исходить из исторических данных, из десяти лет нашей службы вы шесть лет получали высший рейтинг. Учитывая эту информацию, вероятность того, что мы получим лучшую оценку, составляет 60% (6/10). Мы называем эту вероятность априорной.

Предыдущее. Предыдущее значение — это вероятность результата, обусловленного нашими историческими убеждениями, без учета какой-либо дополнительной информации (в данном случае награды за инновации).

Понимание доказательств

Без информации о награде за инновации наши шансы стать лучшими составляли 60%. Мы изменили нашу предыдущую таблицу, чтобы теперь включать эту информацию, соответствующую каждому году. Мы называем эту дополнительную информацию доказательствами.

Доказательства. Доказательства — это дополнительная информация, которая помогает получить более точную оценку наблюдаемого результата.

Понимание апостериорного

Теперь, когда у нас есть дополнительная информация о вашей награде за инновации, возникает логичный вопрос, на который вы попытаетесь ответить:

Каковы шансы получить высшую оценку, если я получил награду за инновации?

Судя по таблице доказательств, было шесть лет (выделено зеленым), когда вы получили награду. Из них вы были лучшими в 5. Таким образом, с учетом доказательств вероятность того, что вы получите лучший рейтинг, составляет 83,3% (5/6). Мы называем эту вероятность апостериорной.

Апостериорная вероятность. Апостериорная вероятность – это пересмотренная оценка исхода, подкрепленного новыми данными.

Формальное определение — переходим к математике

Теорема Байеса обеспечивает математическую конструкцию объяснения, данного в предыдущем разделе. Давайте посмотрим на обозначения и формулу для них:

Обозначения

Предварительное — P(A) — это обозначение указывает на вероятность события A. В нашем случае это наша исходная оценка вероятности получения наивысшего рейтинга (60%).
Предварительное дополнение — P(A’) — это обозначение указывает на вероятность того, что событие A не произойдет. В нашем случае это исходная оценка вероятности не получить высшую оценку (40%).
Вероятность того, что доказательство и событие произойдут вместе — P(A∩E)
Вероятность свидетельства при условии, что событие произошло — P(E|A) — это обозначение указывает вероятность наблюдения свидетельства E при условии, что событие произошло. Мы не делали этот расчет в предыдущем разделе и объясним его в следующем разделе.
Вероятность свидетельства данного дополнения события — P(E|A’) — это обозначение указывает вероятность наблюдения свидетельства E при условии, что событие не произошло. Мы не делали этот расчет в предыдущем разделе и объясним его в следующем разделе.
Апостериорный —P(A|E) —Это обозначение указывает на вероятность события A,при условии, что мы наблюдали доказательство E . В нашем случае это была пересмотренная вероятность получения высшего рейтинга (83,3%).

Формула теоремы Байеса

Формула теоремы Байеса выглядит следующим образом:

Приведенная выше формула — это просто математическое представление нашего логического объяснения:

P(E) или вероятность наблюдения доказательств (независимо от событий и несобытий) – это количество лет, в течение которых вы получали награду за инновации.
P(A∩E) или вероятность наблюдения и свидетельства, и события (за исключением случаев, когда свидетельство произошло вместе с отсутствием события) — это годы, когда вы получили награду за инновации и высший рейтинг .

Для завершения и, как вы найдете в большинстве стандартных текстов, мы можем разбить эту формулу дальше.

Получение разбитой версии теоремы Байеса

Чтобы понять, как мы пришли к упрощенной версии теоремы Байеса, давайте посмотрим на следующую диаграмму:

Разбивка P(A∩E). Здесь мы говорим о событиях и доказательствах, происходящих вместе,P(A) и P(E). Поскольку свидетельство должно происходить вместе с событием, мы не можем взять полное P(E). Это будет вероятность свидетельства данного события, которое равно P (E | A)
Разбивка P(E). Как мы видели, доказательства могут встречаться как в событийных, так и в несобытийных сценариях. Следовательно, P(E) представляет собой сумму вероятности события и свидетельства, P(A∩E), а также дополнения события и свидетельства P(A'∩E). >.Мы можем вычислить P(A'∩E)так же, как P(A∩E)в предыдущий пункт.

Пересчет результатов

Давайте пересчитаем наши результаты, используя формулу Байеса. Наша постановка задачи укладывается в простую формулу Байеса, которая выглядит следующим образом:

Разбитый расчет нашей задачи выглядит следующим образом:

Это дает тот же результат, что и в предыдущем разделе.

Заключительное примечание

Говоря более легким языком, мы все понимаем, что стоит за ежегодной оценкой организации, но это была попытка использовать сценарий и понять базовую математическую формулировку, которая играет решающую роль в одной из наиболее распространенных задач НЛП.

Следите за нашей следующей статьей, в которой мы объясним применение теоремы Байеса в самых популярных алгоритмах машинного обучения для классификации текста, Наивный байесовский алгоритм. До тех пор:

ПРИЯТНОГО ОБУЧЕНИЯ! ! ! !