Вступление

В этом посте я объясню, что такое метод максимального правдоподобия для оценки параметров, и рассмотрю простой пример, чтобы продемонстрировать этот метод. Некоторое содержание требует знания фундаментальных концепций вероятности, таких как определение совместной вероятности и независимости событий. Я написал сообщение в блоге с этими предпосылками, так что не стесняйтесь читать это, если считаете, что нуждаетесь в переподготовке.

Какие параметры?

Часто в машинном обучении мы используем модель для описания процесса, результатом которого являются наблюдаемые данные. Например, мы можем использовать модель случайного леса, чтобы определить, могут ли клиенты отменить подписку на услугу (известное как моделирование оттока), или мы можем использовать линейную модель для прогнозирования дохода, который будет генерироваться для компании, в зависимости от того, как много они могут потратить на рекламу (это был бы пример линейной регрессии). Каждая модель содержит собственный набор параметров, которые в конечном итоге определяют, как модель выглядит.

Для линейной модели мы можем записать это как y = mx + c. В этом примере x может представлять расходы на рекламу, а y - полученный доход. m и c - параметры этой модели. Разные значения этих параметров дадут разные линии (см. Рисунок ниже).

Таким образом, параметры определяют план модели. Только когда для параметров выбраны конкретные значения, мы получаем экземпляр модели, описывающей данное явление.

Интуитивное объяснение оценки максимального правдоподобия

Оценка максимального правдоподобия - это метод, который определяет значения параметров модели. Значения параметров подбираются таким образом, чтобы максимизировать вероятность того, что процесс, описанный моделью, дал данные, которые действительно наблюдались.

Приведенное выше определение может показаться немного загадочным, поэтому давайте рассмотрим пример, чтобы помочь понять это.

Предположим, мы наблюдали 10 точек данных какого-то процесса. Например, каждая точка данных может представлять время в секундах, которое требуется студенту, чтобы ответить на конкретный вопрос экзамена. Эти 10 точек данных показаны на рисунке ниже.

Сначала мы должны решить, какая модель, по нашему мнению, лучше всего описывает процесс генерации данных. Эта часть очень важна. По крайней мере, у нас должно быть хорошее представление о том, какую модель использовать. Обычно это происходит из-за некоторого опыта в предметной области, но мы не будем обсуждать это здесь.

Для этих данных мы будем предполагать, что процесс генерации данных может быть адекватно описан гауссовым (нормальным) распределением. Визуальный осмотр рисунка выше позволяет предположить, что распределение Гаусса является правдоподобным, поскольку большинство из 10 точек сгруппированы в середине, а несколько точек разбросаны слева и справа. (Не рекомендуется принимать такого рода решение на лету только с 10 точками данных, но, учитывая, что я сгенерировал эти точки данных, мы пойдем с этим).

Напомним, что распределение Гаусса имеет 2 параметра. Среднее значение μ и стандартное отклонение σ. Разные значения этих параметров приводят к разным кривым (как и в случае с прямыми линиями выше). Мы хотим знать, какая кривая, скорее всего, ответственна за создание наблюдаемых нами точек данных? (см. рисунок ниже). Оценка максимального правдоподобия - это метод, который находит значения μ и σ, которые дают кривую, которая наилучшим образом соответствует данным.

Истинное распределение, из которого были сгенерированы данные, было f1 ~ N (10, 2.25), что является синей кривой на рисунке выше.

Вычисление оценок максимального правдоподобия

Теперь, когда у нас есть интуитивное понимание того, что такое оценка максимального правдоподобия, мы можем перейти к обучению вычислению значений параметров. Найденные значения называются оценками максимального правдоподобия (MLE).

Мы снова продемонстрируем это на примере. Предположим, на этот раз у нас есть три точки данных, и мы предполагаем, что они были сгенерированы из процесса, который адекватно описывается распределением Гаусса. Это точки 9, 9,5 и 11. Как рассчитать оценки максимального правдоподобия значений параметров гауссова распределения μ и σ?

Мы хотим вычислить общую вероятность наблюдения всех данных, то есть совместное распределение вероятностей всех наблюдаемых точек данных. Для этого нам нужно будет вычислить некоторые условные вероятности, что может оказаться очень трудным. Итак, здесь мы сделаем наше первое предположение. Предполагается, что каждая точка данных создается независимо от других. Это предположение значительно упрощает математику. Если события (то есть процесс, который генерирует данные) независимы, то общая вероятность наблюдения всех данных является результатом наблюдения каждой точки данных в отдельности (то есть произведением предельных вероятностей).

Плотность вероятности наблюдения одной точки данных x,, созданной на основе распределения Гаусса, определяется как:

Точка с запятой, используемая в обозначении P (x; μ, σ), предназначена для того, чтобы подчеркнуть, что символы, которые появляются после нее, являются параметрами распределения вероятностей. Поэтому не следует путать ее с условной вероятностью (которая обычно представлена ​​вертикальной линией, например, P (A | B)).

В нашем примере общая (совместная) плотность вероятности наблюдения трех точек данных определяется выражением:

Нам просто нужно вычислить значения μ и σ, которые дают максимальное значение приведенного выше выражения.

Если вы изучали математику на уроках математики, то, вероятно, знаете, что есть метод, который может помочь нам найти максимумы (и минимумы) функций. Это называется дифференцированием. Все, что нам нужно сделать, это найти производную функции, установить производную функцию равной нулю, а затем изменить уравнение, чтобы сделать интересующий параметр объектом уравнения. И вуаля, у нас будут значения MLE для наших параметров. Сейчас я проделаю эти шаги, но предполагаю, что читатель знает, как проводить различие в общих функциях. Если вы хотите более подробное объяснение, просто дайте мне знать в комментариях.

Вероятность журнала

Вышеупомянутое выражение для полной вероятности на самом деле довольно сложно дифференцировать, поэтому его почти всегда упрощают, беря натуральный логарифм выражения. Это абсолютно нормально, потому что натуральный логарифм - это монотонно возрастающая функция. Это означает, что если значение на оси x увеличивается, значение на оси y также увеличивается (см. Рисунок ниже). Это важно, потому что это гарантирует, что максимальное значение логарифма вероятности происходит в той же точке, что и исходная функция вероятности. Поэтому мы можем работать с более простым логарифмическим правдоподобием вместо исходного правдоподобия.

Журналы исходного выражения дают нам:

Это выражение можно снова упростить, используя законы логарифмов, чтобы получить:

Это выражение можно дифференцировать, чтобы найти максимум. В этом примере мы найдем MLE среднего μ. Для этого возьмем частную производную функции по μ, что дает

Наконец, установка левой части уравнения равной нулю и последующее преобразование для μ дает:

И это наша оценка максимального правдоподобия для μ. То же самое можно сделать и с σ, но я оставлю это в качестве упражнения для внимательного читателя.

Заключительные замечания

Всегда ли оценка максимального правдоподобия решается точно?

Нет - краткий ответ. Более вероятно, что в реальном сценарии производная логарифмической функции правдоподобия все еще аналитически неразрешима (то есть слишком сложно / невозможно дифференцировать функцию вручную). Поэтому итерационные методы, такие как алгоритмы ожидания-максимизации, используются для поиска численных решений для оценок параметров. Однако общая идея осталась прежней.

Так почему максимальная вероятность, а не максимальная вероятность?

Ну, это просто педантичность статистики (но не зря). Большинство людей склонны использовать вероятность и правдоподобие как синонимы, но статистики и теоретики вероятности различают их. Причину путаницы лучше всего выявить, взглянув на уравнение.

Эти выражения равны! Так что это значит? Давайте сначала определим P (data; μ, σ)? Это означает «плотность вероятности наблюдения данных с параметрами модели μ и σ». Стоит отметить, что мы можем обобщить это на любое количество параметров и любое распределение.

С другой стороны, L (μ, σ; данные) означает «вероятность того, что параметры μ и σ примут определенные значения при условии, что мы наблюдали набор данных».

В приведенном выше уравнении говорится, что плотность вероятности данных с учетом параметров равна правдоподобию параметров с учетом данных. Но, несмотря на то, что эти две вещи равны, вероятность и плотность вероятности по сути задают разные вопросы: один спрашивает о данных, а другой - о значениях параметров. Вот почему метод называется максимальной вероятностью, а не максимальной вероятностью.

Когда минимизация по методу наименьших квадратов совпадает с оценкой максимального правдоподобия?

Минимизация методом наименьших квадратов - еще один распространенный метод оценки значений параметров модели в машинном обучении. Оказывается, когда предполагается, что модель является гауссовой, как в приведенных выше примерах, оценки MLE эквивалентны методу наименьших квадратов. Для более глубокого математического вывода ознакомьтесь с этими слайдами.

Интуитивно мы можем интерпретировать связь между двумя методами, понимая их цели. Для оценки параметра наименьших квадратов мы хотим найти линию, которая минимизирует общий квадрат расстояния между точками данных и линией регрессии (см. Рисунок ниже). При оценке максимального правдоподобия мы хотим максимизировать общую вероятность данных. Когда предполагается гауссово распределение, максимальная вероятность обнаруживается, когда точки данных приближаются к среднему значению. Поскольку распределение Гаусса является симметричным, это эквивалентно минимизации расстояния между точками данных и средним значением.

Если есть что-то неясное или я допустил некоторые ошибки в приведенном выше тексте, не стесняйтесь оставлять комментарий. В следующем посте я планирую рассказать о Байесовском выводе и о том, как его можно использовать для оценки параметров.

Спасибо за чтение.