РЕДАКТИРОВАТЬ: - Для исчисления прочтите мой пост о матричном исчислении.

Есть много причин, по которым математика важна для машинного обучения. Некоторые из них приведены ниже:

  1. Выбор правильного алгоритма, который включает рассмотрение точности, времени обучения, сложности модели, количества параметров и количества функций.
  2. Выбор настроек параметров и стратегий проверки.
  3. Выявление недостаточного и переоборудования путем понимания компромисса смещения и отклонения.
  4. Оценка правильного доверительного интервала и неопределенности.

Какие ресурсы лучше всего подходят для обучения?

Я попытался обобщить математику, преподаваемую в обоих источниках. Итак, приступим!

Скаляры, векторы, матрицы и тензоры:

  • Скаляры. Скаляр - это просто одно число.
  • Векторы: вектор - это массив чисел. Номера расположены по порядку. Мы можем идентифицировать каждый отдельный номер по его индексу в таком порядке. x = [x1 x2 x3…. xn]. Мы можем рассматривать векторы как идентифицирующие точки в пространстве, где каждый элемент задает координату по разной оси. Иногда нам нужно проиндексировать набор элементов вектора. В этом случае мы определяем набор, содержащий индексы, и записываем набор как нижний индекс. Например, для доступа к x1, x3 и x6 мы определяем набор S = {1,3,6} и пишем xs.
  • Матрицы. Матрица - это двумерный массив чисел, поэтому каждый элемент идентифицируется двумя индексами, а не одним.

транспонирование матрицы - это зеркальное отображение матрицы по диагональной линии, называемой главной диагональю, идущей вниз и вправо, начиная с ее верхнего левого угла.

Мы можем добавлять матрицы друг к другу, если они имеют одинаковую форму, просто добавляя соответствующие им элементы: C = A + B, где Ci, j = Ai, j + Bi, j.

Мы разрешаем сложение матрицы и вектора, в результате чего получается другая матрица: C = A + b, где Ci, j = Ai, j + bj. Другими словами, вектор b добавляется к каждой строке матрицы. Это сокращение избавляет от необходимости определять матрицу с b, скопированную в каждую строку, перед выполнением сложения. Это неявное копирование b во многие места называется трансляцией.

  • Тензоры. Массив чисел, расположенных на регулярной сетке с переменным числом осей, называется тензором.

Умножение матриц и векторов:

Матричное произведение матриц A и B является третьей матрицей C. Чтобы это произведение было определено, A должно иметь такое же количество столбцов, что и B имеет строки. Если A имеет форму m × n, а B имеет форму n × p, то C имеет форму m × p.

Работа продукта определяется

Умножение матриц является дистрибутивным, ассоциативным, но не коммутативным (условие AB = BA не всегда выполняется), в отличие от скалярного умножения.

Чтобы узнать больше, вы можете пройти этот курс, предлагаемый MIT Courseware (профессор Гилберт Странг).



Теория вероятности:

Теория вероятностей - это математическая основа для представления неопределенных утверждений. Он предоставляет средства количественной оценки неопределенности, а также аксиомы для вывода новых неопределенных утверждений.

Давайте разберемся с некоторыми терминологиями, используемыми в теории вероятностей:

  • Случайные переменные: случайная величина - это переменная, которая может принимать разные значения случайным образом. Они могут быть непрерывными или дискретными. Дискретная случайная величина - это та, которая имеет конечное или счетно бесконечное число состояний. Непрерывная случайная величина связана с действительным значением.
  • Распределения вероятностей. Распределение вероятностей - это описание того, насколько вероятно случайная величина или набор случайных величин принять каждое из своих возможных состояний. Распределение вероятностей по дискретным переменным можно описать с помощью функции массы вероятности (PMF), обозначенной P (x). При работе с непрерывными случайными величинами мы описываем распределения вероятностей с помощью функции плотности вероятности (PDF), обозначенной p (x). Функция плотности вероятности p (x) не дает напрямую вероятность определенного состояния; вместо этого вероятность приземления внутри бесконечно малой области с объемом δx определяется как p (x) δx.
  • Условная вероятность. Во многих случаях нас интересует вероятность какого-либо события при условии, что произошло другое событие. Это называется условной вероятностью. Мы обозначаем условную вероятность того, что y = y при x = x как P (y = y | x = x ).

  • Цепное правило условных вероятностей: любое совместное распределение вероятностей по множеству случайных величин можно разложить на условные распределения только по одной переменной.

  • Ожидание: ожидание или ожидаемое значение некоторой функции f (x) относительно распределения вероятностей P (x) является средним , или среднее значение, которое принимает f, когда x берется из P.

  • Дисперсия. Дисперсия показывает, насколько сильно меняются значения функции случайной величины x, когда мы выбираем различные значения x из ее распределения вероятностей.

  • Квадратный корень из дисперсии известен как стандартное отклонение.
  • Ковариация. Ковариация дает некоторое представление о том, насколько два значения линейно связаны друг с другом, а также о масштабе этих переменных:

Высокие абсолютные значения ковариации означают, что значения очень сильно меняются и оба одновременно далеки от своих соответствующих средних значений. Если знак ковариации положительный, то обе переменные имеют тенденцию принимать относительно высокие значения одновременно. Если знак ковариации отрицательный, то одна переменная имеет тенденцию принимать относительно высокое значение в то время, когда другая принимает относительно низкое значение, и наоборот.

  • Правило Байеса. Теорема Байеса - это формула, описывающая, как обновлять вероятности гипотез при наличии доказательств. Это просто следует из аксиом условной вероятности, но может использоваться для убедительных рассуждений о широком спектре проблем, связанных с обновлением убеждений. Мы часто оказываемся в ситуации, когда знаем P (y | x) и должны знать P (x | y). К счастью, если мы также знаем P (x), мы можем вычислить желаемое количество

Общие распределения вероятностей: -

Некоторые из распространенных распределений вероятностей, используемых в машинном обучении, следующие:

  • Распределение Бернулли: это распределение по одной двоичной случайной величине. Он управляется одним параметром φ ∈ [0,1], который дает вероятность того, что случайная величина будет равна 1.

  • Мультинуллическое распределение: мультинуллиевое или категориальное распределение - это распределение по одной дискретной переменной с k различными состояниями, где k - конечное число. Распределения мультинулли часто используются для обозначения распределений по категориям объектов.
  • Распределение Гаусса: наиболее часто используемым распределением вещественных чисел является нормальное распределение, также известное как распределение Гаусса.

  • Два параметра µ ∈ R и σ ∈ (0, ∞) управляют нормальным распределением. Параметр µ дает координату центрального пика. Это также среднее распределения: E [x] = µ. стандартное отклонение распределения определяется как σ, а дисперсия - как σ ².

Khan Academy имеет очень хороший курс по статистике и вероятности.



Заверну здесь. Надеюсь, этот пост поможет вам пересмотреть некоторые концепции, которым вы научились в старшей школе. 😄 Спасибо за чтение!

Вы можете найти меня в Twitter @ Rohitpatil5 или связаться со мной в LinkedIn.