Объяснение ковариации и корреляции в науке о данных

Прежде чем перейти к теме, давайте рассмотрим небольшой пример, чтобы узнать, почему ковариация и корреляция полезны в науке о данных, и получить общее представление о концепции.

Пример:

Допустим, вы едете в поезде со скоростью 30 км/ч, вы доберетесь до места назначения за 60 минут, а когда скорость поезда увеличится до 60 км/ч, вы доберетесь до места назначения за 30 минут. Как вы можете заметить, время меняется с изменением скорости. Скорость и время коррелируют.

Как вы можете видеть, если вы знаете скорость поезда, вы можете оценить время, необходимое для достижения пункта назначения, что означает, что вы можете прогнозировать на основе отношений между этими двумя параметрами. То же самое происходит и в случае науки о данных.

Ковариация

Ковариация используется для поиска взаимосвязи между двумя функциями данных. Как вы, возможно, знаете, дисперсия — это концепция, используемая для понимания того, как данные распределяются в пространстве. Здесь применяется та же концепция, поскольку в этом случае мы узнаем разброс между двумя функциями.

Ковариация обозначается Cov(X,Y) [X: признак 1, Y: признак 2, X̄: среднее (среднее) X, Ȳ: среднее (среднее) Y.]

Cov(X,Y) = значение +ve, то мы можем сказать, что с увеличением X будет увеличиваться Y.

Cov(X,Y) = -ve значение, то мы можем сказать, что с уменьшением X будет уменьшаться Y.

Cov(X,Y) = 0, то мы можем сказать, что между X и Y нет связи.

Примечание:

«Единицы признака имеют значение в ковариации». Давайте рассмотрим пример, чтобы понять утверждение. Вы указали рост (см) и вес (кг) учащихся, а ковариация равна Cov (рост (см), вес (кг)) и вы конвертируете единицы роста из см в футы. , вес от кг до фунтов, тогда ковариация будет Cov(рост (футы), вес (фунты)).

Cov(Рост(см),Вес(кг)) != Cov(Рост(футы),Вес(фунты))

Используя ковариацию, мы можем не получить точную связь между функциями. Следовательно, мы бы предпочли корреляцию.

Корреляция

Этот метод используется, чтобы узнать взаимосвязь между функциями. значение корреляции колеблется от -1 до 1, и это решает проблему ковариации.

Мы обсудим два популярных метода в соотношении:

коэффициент корреляции Пирсона
Ранговая корреляция Спирмена

Коэффициент корреляции Пирсона.Стандартизирует ковариацию путем деления ковариации двух признаков на произведение стандартного отклонения двух ковариаций. Диапазон значений от -1 до 1

значение = 1 указывает, что две функции положительно коррелированы.

значение = 0 указывает, что две функции не коррелированы.

value = -1 указывает, что две функции имеют отрицательную корреляцию.

Недостатки:

Он проверяет только линейные отношения, но не насколько быстро увеличение/уменьшение X влияет на Y.
Он не фиксирует нелинейные отношения.

Ранговая корреляция Спирмена.Это решает проблему, связанную с коэффициентом корреляции Пирсона. Он также используется для нелинейных объектов в процессе ранжирования данных объектов и нахождения связи между ними. ранги данных в двух функциях.

Обратите внимание на график ниже:

Как вы можете видеть, существует гладкая корреляция между данными [по мере увеличения X Y также увеличивается], но корреляция Пирсона составляет всего 0,88, а в случае Спирмена она равна 1.

Мы видим, что концепции ковариации и корреляции помогают нам в анализе данных и дают нам некоторое представление о данных.

Надеюсь, вы поняли концепции.

Спасибо :)

Объяснение ковариации и корреляции в науке о данных

Ковариация

Корреляция

Вопросы по теме