Часть 1. Почему машинное обучение?

Термин машинное обучение был придуман в 1959 году Артуром Сэмюэлем, сотрудником IBM и пионером в области компьютерных игр и искусственного интеллекта. Согласно Википедии, машинное обучение (МО) — это область исследований и практики, которая фокусируется на разработке алгоритмов и моделей, которые позволяют компьютерам или машинам обучаться и делать прогнозы или решения на основе данных без явного программирования. Но почему бы не использовать вероятностные модели для предсказаний или использовать алгоритмы для принятия решений? Что требует от нас использования «машинного обучения»?

Рассмотрите пример. Вам было поручено классифицировать электронные письма как «спам» или «не спам».

  1. Традиционные алгоритмические подходы обычно разрабатывают явные правила или эвристики, основанные на понимании проблемы. Для данной задачи классификации у них могут быть определенные вручную правила, такие как «если электронное письмо содержит определенные ключевые слова или фразы, относящиеся к спаму, классифицировать его как спам; в противном случае классифицируйте его как не спам». Эти правила часто разрабатываются вручную и требуют знаний в предметной области. Им может быть трудно зафиксировать сложные шаблоны, вариации и взаимодействия в данных, которые нелегко выразить с помощью явных правил. Что, если спамер продолжает изменять правила, такие как «d1sc0unt» вместо «скидка»? Определение правил для каждого возможного сценария может занять много времени и привести к ошибкам или упущениям.
  2. Хотя понять, почему требуется система лучше алгоритмов, основанных на правилах, немного тривиально, понять, почему вероятностные модели нельзя использовать для прогнозирования, может быть не так уж и сложно. очевидный. Машинное обучение часто интегрирует вероятностные модели в свои методы, чтобы справиться с неопределенностью и зафиксировать вероятностные отношения в данных. Вероятностные модели обеспечивают основу для представления и рассуждений о неопределенности, позволяя алгоритмам машинного обучения делать более надежные прогнозы и решения. Однако существует различие между вероятностной моделью и использованием вероятностей как части процесса моделирования.

Давайте рассмотрим простой пример вероятностной модели (Наивный Байес) в сравнении с моделью машинного обучения (логистическая регрессия) для классификации электронных писем как спама или не спама. Вскоре мы перейдем к математическим определениям каждой из этих моделей, но предположим, что их работа верна для этого примера.

Вероятностная модель (наивный байесовский метод): в наивном байесовском подходе мы предполагаем, что появление каждого слова в электронном письме не зависит от наличия других слов. Модель вычисляет вероятность того, что электронное письмо является спамом или не является спамом, на основе вхождений слов в электронном письме и их соответствующих вероятностей в наборе обучающих данных.

Например, если слово «деньги» часто встречается в сообщениях со спамом, но редко в письмах, не являющихся спамом, модель наивного Байеса будет изучать и назначать более высокую вероятность тому, что письмо, содержащее слово «деньги», будет классифицировано как спам.

Модель машинного обучения (логистическая регрессия). В логистической регрессии модель изучает взаимосвязь между функциями (словами в электронных письмах) и целевой переменной (спам или не спам) путем оценки коэффициентов для каждой функции. . Эти коэффициенты представляют силу и направление связи между функциями и целью.

Например, модель логистической регрессии может узнать, что наличие таких слов, как «купить», «скидка» и «распродажа», увеличивает вероятность того, что электронное письмо будет классифицировано как спам. С другой стороны, такие слова, как «встреча», «повестка дня» и «дело», могут снизить вероятность того, что электронное письмо будет спамом.

Чтобы классифицировать новое электронное письмо, модель логистической регрессии использует изученные коэффициенты и вычисляет вероятность того, что электронное письмо является спамом, на основе наличия или отсутствия определенных слов. Если вероятность превышает определенный порог (например, 0,5), модель предсказывает электронное письмо как спам; в противном случае он предсказывает его как не спам.

В этом примере вероятностная модель (Наивный Байес) предполагает независимость слов. Напротив, модель машинного обучения (логистическая регрессия) изучает связь между словами и целевой переменной в процессе обучения.

Вывод. В контексте задачи классификации логистическая регрессия обычно считается моделью машинного обучения, а не вероятностной моделью. Термин «вероятностная модель» часто используется для обозначения моделей, специально предназначенных для представления и рассуждений о неопределенности. Эти модели сосредоточены на явном моделировании вероятностных отношений между переменными.

С другой стороны, логистическая регрессия — это модель машинного обучения, которая использует вероятности как средство для прогнозирования. Он изучает границу решения, оценивая коэффициенты для каждой функции, а затем применяет функцию для получения вероятностей, которые классифицируют примеры по разным классам, таким как спам или не спам.

Таким образом, хотя логистическая регрессия использует вероятности в своих расчетах, она классифицируется как модель машинного обучения, поскольку ее основное внимание уделяется изучению закономерностей и отношений непосредственно из данных, а не явному моделированию вероятностных отношений между переменными, как в Наивном Байесе.

Вооружившись этой интуицией, давайте поймем, как эти вероятностные модели и модели машинного обучения математически классифицируют данные. Приор поможет нам построить основу и понимание последнего.

Часть 2 — Вероятность

Рассмотрите пример еще раз — вам было поручено классифицировать электронные письма как «спам» или «не спам». Каким будет ваш подход?

Вы можете начать со случайного «угадывания», является ли письмо спамом (ω₁) или нет (ω₂). Здесь мы рассматриваем «ωᵢ» как ярлык для наших электронных писем. Но что, если бы было 1000 электронных писем, из которых 999 писем были ω₁, а 1 — ω₂? Если бы вы угадали ω₂ для большинства из них, это закончилось бы не очень хорошо. Таким образом, лучшим следующим подходом было бы учитывать количество спамовых и не спамовых писем.

Допустим, вам предоставлена ​​информация о том, что есть «n» писем, из которых «r» являются спамом. Выбрав случайное электронное письмо из группы (не открывая его), какова будет ваша наилучшая оценка того, что электронное письмо является спамом? — р/н. Это значение также называют «априорной вероятностью» или «априорной вероятностью». Априорная вероятность, также известная как классическая или теоретическая вероятность, основана на логических рассуждениях и предшествующих знаниях, а не на эмпирических данных или наблюдениях. Он выводится исключительно из природы вовлеченных событий и не зависит ни от каких экспериментальных или наблюдаемых частот. Термин «априорная вероятность» обычно используется в философии, тогда как «априорная вероятность» более распространен в статистике и байесовском выводе. Оба они относятся к одному и тому же понятию в теории вероятностей.

Обозначим априорную вероятность того, что электронное письмо является спамом, как

Можно ли улучшить эту оценку? Допустим, теперь у вас есть доступ к содержимому некоторых электронных писем с соответствующими ярлыками (спам/не спам). Используя размеченные данные, вы можете затем проанализировать частоту слов, длину текста, шаблоны или другие функции (X), чтобы рассчитать вероятность того, что различные электронные письма являются спамом или не являются спамом P (ω). Как это помогает? Предположим, что r равно 500, а n равно 1000. Это делает вероятность того, что электронное письмо является спамом (и ваше предположение верно), составляет 50%. Но что, если при анализе характеристик вы обнаружите, что длина 400 из 500 спам-писем составляет менее 50 слов, но только 100 из 500 не спамовых писем содержат менее 50 слов? Таким образом, вероятность того, что вы определите электронное письмо как спам на основе длины (‹50), будет 400/500 ~ 80%! Значительное улучшение. Затем вы можете определить функции, которые максимизируют вероятность обнаружения спама или не спама на основе доступных данных, и использовать это для лучшей классификации электронных писем! Этот метод известен как оценка максимального правдоподобия и может быть рассчитан по условной вероятности наблюдаемого свидетельства (функции) при условии, что метка электронной почты (ω):

где P(X,ω) — вероятность объединения свидетельства, являющегося X, и метки, равной ω одновременно. Его также можно обозначить через P(X ∩ ω).

Теперь, когда функции определены, давайте вернемся к исходной задаче — какова будет вероятность того, что электронное письмо будет помечено ω, учитывая, что теперь вы можете наблюдать свидетельство (X) или P(ω|X)? Используя условную вероятность, как указано выше,

Подставляя термины MLE,

Это знание или рассуждение, полученные или полученные постфактум на основе наблюдаемых данных или вероятности опыта, называются «апостериорными». Это позволяет нам найти лучшую функцию/доказательство (X), пытаясь максимизировать P(ω|X), чтобы лучше идентифицировать электронное письмо как спам/не спам. Этот метод известен как максимальная априорная оценка (MAP). Теперь у нас есть все необходимое для создания нашего первого классификатора.

Часть 3. Классификация

Учитывая наблюдение, мы принимаем решение о выборе класса (спам или не спам) наблюдаемого доказательства (длины), используя правило принятия решений Байеса. Это принцип, используемый для принятия решений или классификации экземпляров на основе апостериорных вероятностей различных классов. Он утверждает, что оптимальное решение состоит в том, чтобы выбрать класс с наибольшей апостериорной вероятностью с учетом наблюдаемых свидетельств. Математически это представляется как:

Другими словами, выбрать класс ω₁, если P(ω₁|X) ≥ P(ω₂|X) для всех классов ω₂, или выбрать класс ω₂, если P(ω₁|X) ≤ P(ω₂|X) для всех классов ω₁, где X представляет наблюдаемые особенности или доказательства.

Предполагая, что большое количество электронных писем и значения характеристик (длины) независимы и одинаково распределены (i.i.d.), в соответствии с центральной предельной теоремой можно предположить, что P (x | ω) следует распределению Гаусса. Таким образом,

для i = 1, 2.

Подставляя это значение в решающее правило Байе, получаем

Рассмотрим 2 случая, варьируя μᵢ и σᵢ по отношению друг к другу.

  1. P(ω₁) = P(ω₂)
  2. P(ω₁) ≠ P(ω₂)

Что вы наблюдаете?