Теорема Байеса, гипотеза, вероятность, машинное обучение

Байесовские классификаторы – это тип вероятностной системы машинного обучения, которая классифицирует данные с помощью теоремы Байеса. Теорема Байеса дает метод расчета вероятности гипотезы с учетом вероятности данных и априорной вероятности гипотезы. В байесовском классификаторе гипотеза — это метка класса данных, а данные — это признаки или атрибуты экземпляра данных. Учитывая, что они присваивают вероятности каждой метке класса для данного экземпляра данных, байесовские классификаторы также известны как вероятностные классификаторы. В качестве прогнозируемой метки экземпляра данных выбирается метка класса с наибольшей вероятностью. Классификация текста, фильтрация спама и распознавание изображений — все это важные области применения байесовских классификаторов.

Гипотеза и теорема Байеса

Гипотеза – это утверждение или предположение о неизвестном событии или явлении в контексте теоремы Байеса. Он обозначает потенциальное объяснение или прогноз для данных.

Теорема Байеса — это фундаментальное понятие в теории вероятностей и статистике. Он предоставляет метод расчета вероятности гипотезы с учетом вероятности данных и априорной вероятности гипотезы. Теорема названа в честь Томаса Байеса, английского математика и статистика, разработавшего ее в 18 веке.

Согласно теореме Байеса, вероятность гипотезы H при данных D пропорциональна вероятности данные с учетом гипотезы, умноженные на априорную вероятность гипотезы:

где:

  • P(H | D) — апостериорная вероятность гипотезы с учетом данных. Он представляет нашу обновленную веру в гипотезу после наблюдения за данными.
  • P(D | H) – это вероятность данных с учетом гипотезы. Он представляет собой вероятность наблюдения данных, если гипотеза верна.
  • P(H) — априорная вероятность гипотезы. Он представляет собой нашу первоначальную веру в гипотезу до наблюдения за данными.
  • P(D) – вероятность данных. Он представляет собой вероятность наблюдения данных независимо от гипотезы.

По мере сбора дополнительных данных мы можем использовать теорему Байеса, чтобы обновить наши представления о гипотезе. Априорная вероятность P(H) представляет наше исходное убеждение в гипотезе. Мы обновляемнаше убеждение на основе вероятности фактов с учетом гипотезы, которая представлена ​​термином P(D | H). em> Апостериорная вероятность гипотезы с учетом данных, обозначаемая обозначением P(H | D), представляет нашу пересмотренное убеждение в гипотезе после наблюдения за данными.

Пример теоремы Байеса

Предположим, мы хотим предсказать, есть ли у человека заболевание, основываясь на его симптомах. Одна возможность состоит в том, что у человека есть болезнь, а другая в том, что у человека нет этого состояния. По мере того, как мы собираем больше информации, мы можем использовать теорему Байеса, чтобы обновить нашу веру в эти гипотезы.

В качестве иллюстрации теоремы Байеса представьте, что у нас есть тест на заболевание, точность которого составляет 95%. Это указывает на то, что если у человека есть заболевание, тест точно идентифицирует его в 95% случаев, а если у человека нет этого заболевания, тест правильно идентифицирует его в 95% случаев.

Предположим, что 1% населения инфицировано этой болезнью. Какова вероятность того, что человек с этим заболеванием болен, если мы случайным образом выберем кого-то из публики и дадим ему тест?

Мы можем использовать теорему Байеса, чтобы ответить на этот вопрос. Пусть H — гипотеза о том, что у человека есть заболевание, а D — данные о том, что тест положительный. Затем мы можем использовать приведенное выше уравнение для решения нашей проблемы.

где:

  • P(H) – априорная вероятность гипотезы (в данном случае 1 %),
  • P(D | H) — вероятность данных с учетом гипотезы (95%, если у человека есть заболевание),
  • а P(D) – вероятность данных (вероятность положительного результата теста).

Чтобы рассчитать P(D), нам нужно рассмотреть оба случая, когда у человека есть заболевание, и когда его нет. Если у человека есть заболевание, вероятность положительного результата теста составляет 95%. Если у человека нет заболевания, вероятность ложноположительного результата (положительный результат теста, когда у человека нет заболевания) составляет 1% (поскольку 99% людей не болеют). Поэтому:

После этого мы можем использовать теорему Байесадля вычисленияP(H | D). Поэтому:

Вывод на примере

Это означает, что вероятность того, что человек действительно болен, при положительном результате теста составляет всего 48,8%, хотя точность теста составляет 95%. Это иллюстрирует важность учета априорной вероятности гипотезы при интерпретации результатов теста или эксперимента.

Однако тип распределения вероятностей может влиять на теорему Байеса. На практике, в зависимости от поставленной задачи, чаще используются различные дистрибутивы. Априорное распределение вероятностей и функция правдоподобия являются важными компонентами байесовской модели в байесовском выводе. Априорное распределение представляет наши первоначальные представления об интересующем параметре (параметрах) до получения каких-либо данных, а функция правдоподобия обеспечивает вероятность наблюдения данных с учетом параметра (параметров). Некоторые распространенные распределения вероятностей, используемые в байесовском выводе, включают:

  1. Нормальное или гауссово распределение. Это распределение часто используется, когда интересующий параметр является непрерывным и имеет нормальное распределение. Он характеризуется двумя параметрами: средним значением и стандартным отклонением.
  2. Бета-распределение. Это распределение часто используется, когда интересующим параметром является вероятность, например вероятность успеха испытания Бернулли. Он характеризуется двумя параметрами, альфа и бета.
  3. Распределение Пуассона. Это распределение часто используется, когда интересующий параметр представляет собой количество, например количество событий за фиксированный интервал времени. Он характеризуется одним параметром лямбда.
  4. Экспоненциальное распределение. Это распределение часто используется, когда интересующий параметр представляет скорость, например скорость, с которой происходят события. Он характеризуется одним параметром лямбда.

Это лишь некоторые из распределений вероятностей, которые можно использовать в байесовском выводе. Используемое распределение определяется конкретной задачей и типом изучаемых данных. Кроме того, если вы хотите узнать больше о распределениях вероятностей, перейдите по этой ссылке (будет опубликована).

После определения всей необходимой теории, лежащей в основе теоремы Байеса, существует несколько типов байесовских классификаторов, в том числе:

  1. Наивный байесовский классификатор. Это самый простой и популярный байесовский классификатор. Предполагается, что функции независимы друг от друга с учетом метки класса. Это предположение позволяет проводить быстрое и эффективное обучение и классификацию. Наивные байесовские классификаторы обычно используются для классификации текстов и фильтрации спама.
  2. Байесовский сетевой классификатор доверия. Это более сложный байесовский классификатор, который моделирует зависимости между функциями с помощью ориентированного ациклического графа. Байесовские классификаторы сетей доверия могут обрабатывать более сложные структуры данных, чем наивные байесовские классификаторы.
  3. Наивный байесовский классификатор с расширенным деревом. Это расширение наивного байесовского классификатора, которое добавляет древовидную структуру для моделирования зависимостей между функциями. Древовидная структура изучается из данных во время обучения.
  4. Байесовский сетевой классификатор. Это более общий байесовский классификатор, который моделирует зависимости между функциями с помощью ориентированного ациклического графа. Байесовский сетевой классификатор может обрабатывать циклические зависимости между функциями.
  5. Ненаивный байесовский метод: вместо того, чтобы предполагать, что признаки независимы друг от друга, мы моделируем условную вероятность метки класса с учетом всех признаков напрямую, используя совместное распределение вероятностей по всем признакам.

Кроме того, если вы хотите узнать об этих типах байесовских классификаторов, вы можете перейти по этой ссылке (будет опубликована). Наконец, мы можем перейти к реализации простого байесовского классификатора. Я продемонстрирую простой код на питоне.

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

# Define the training data
train_data = ['This is a positive message', 
              'This is a negative message', 
              'This is a neutral message']

# Define the corresponding class labels
train_labels = ['positive', 'negative', 'neutral']

# Initialize the CountVectorizer to convert text into a matrix of word frequencies
count_vectorizer = CountVectorizer()

# Use the CountVectorizer to transform the training data into a matrix of word frequencies
train_matrix = count_vectorizer.fit_transform(train_data)

# Initialize the MultinomialNB classifier
naive_bayes = MultinomialNB()

# Train the classifier on the training data and corresponding labels
naive_bayes.fit(train_matrix, train_labels)

# Define a test message to classify
test_message = 'This is a new message'

# Use the CountVectorizer to transform the test message into a matrix of word frequencies
test_matrix = count_vectorizer.transform([test_message])

# Use the trained classifier to predict the class label for the test message
predicted_label = naive_bayes.predict(test_matrix)[0]

# Print the predicted class label
print(predicted_label)

Однако, если вы хотите прочитать другие мои статьи, я рекомендую прочитать о логистической регрессии или методах оптимизации в машинном обучении.



or



И не забудьте подписаться на мои новые статьи.

Дополнительные материалы на PlainEnglish.io.

Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord .