Я не очень понимал, каковы отношения между R Пирсона и Ро Спирмена. Исследователи, похоже, отдают предпочтение одному перед другим на основе корреляции и линейных / нелинейных отношений между двумя переменными с интуитивным пониманием графиков.

Есть ли способ сделать это более систематично? Классифицируйте с помощью матрицы 2x2?

Будучи фанатом крикета, я тогда подумал, почему бы не поохотиться парами, как Лилли и Томсон, или Уолш и Эмброуз, или поближе к дому, Камбл и Бхаджи. Для тех, кто интересуется боулерами, которые охотились парами, обратите внимание:

Https://www.indiatimes.com/sports/it-s-all-about-hunting-in-pairs-meet-the-most-deadly-bowling-duos-in-cricket-history-264615.html

Будет ли корреляция лучше объяснена, если мы возьмем оба Pearson’s R и Spearman’s Rho вместе как пару?

Но обо всем по порядку. Что такое линейная связь по сравнению с нелинейной?

Проще говоря, линейная связь между двумя переменными A и B (мы можем называть ее X, y, если хотите) следует модели y = m * x + c + Error. Примеры: Расстояние = Скорость * Время + Ошибка. В этом случае мы говорим, что ошибка имеет особое качество белого шума. То есть ошибка не является системной и не зависит от X. Итак, если я путешествую из Бангалора в Ченнаи 100 раз в течение года в разное время, фактор ошибки, вероятно, будет случайным образом связан, скажем, с погодой, дорожными происшествиями, дорожным строительством и т. Д. и т.д., но ничего не связано с расстоянием между Бангалором и Ченнаи.

В предыдущем примере мы предполагали постоянную скорость (или скорость, если хотите). С другой стороны, вот пример нелинейной зависимости: с вершины здания я бросаю мяч вертикально вниз. Расстояние = u * t + (1/2) * g * t² + Ошибка. g - коэффициент ускорения. Добавьте ускорение, и зависимость станет нелинейной. Скорость больше не постоянна. Можно разумно утверждать, что это ближе к реальному миру, чем простой случай, который мы обсуждали ранее. В отношении ошибки будут применяться те же соображения, что и ранее. В данном случае это может быть дующий ветер, температура, давление, вещи вне нашего контроля - то, что мы можем рассматривать как белый шум.

Когда выражения в закрытой форме, подобные приведенным выше, невозможны, как определить характер связи между двумя переменными?

Что такое Pearson’s R и Spearman’s Rho?

Есть хорошая ссылка, которая подробно объясняет R vs. Rho:

Https://towardsdatascience.com/clearly-explained-pearson-v-s-spearman-correlation-coefficient-ada2f473b8

Аналитический подход

Можно посмотреть на точечные диаграммы, но если бы у нас было слишком много переменных, числовой и аналитический методы могли бы ускорить процесс.

Что мы пытаемся понять между двумя переменными?

1. Есть ли связь между двумя переменными?

2. Насколько сильна связь между переменными?

3. если есть связь, является ли она линейной?

4. Если есть взаимосвязь, является ли взаимосвязь нелинейной?

Вот таблица, которую я буду заполнять по ходу дела.

Я придумал некоторые из моих собственных наборов данных, чтобы изучить взаимосвязь, и цель - попытаться заполнить таблицу. Я использую две переменные A и B.

Случай 1: и A, и B не коррелированы

Вот набор данных для переменных A, B и соответствующий рейтинг:

Диаграмма рассеяния для столбцов A и B показана ниже:

Очевидно, мы видим, что между двумя переменными нет особой корреляции, и они отражены в двух R и Rho:

Итак, теперь мы получаем нашу первую и вторую записи в нашу матрицу 2x2:

Случай 2: и A, и B линейно коррелированы

График рассеяния для нижеприведенного приведен ниже:

Как и ожидалось, мы обнаруживаем, что как Rho, так и R имеют высокие значения.

Итак, теперь мы заполняем третью запись в нашей матрице 2x2:

Случай 3: и A, и B нелинейно коррелированы

Я включил только 20 строк, чтобы их можно было уместить на одной странице.

Диаграмма разброса показывает две вещи:

  1. Есть корреляция между A и B.
  2. Значения B для A монотонно увеличиваются.
  3. B не коррелирует линейно с A

График разброса выглядит так, как показано ниже:

Давайте посмотрим, что говорят мистер Спирмен и мистер Пирсон:

Итак, теперь мы заполняем четвертую запись в нашей матрице 2x2:

Я говорю «низкий R», но 0,61 на самом деле не очень низкий показатель. Я потратил несколько часов, пытаясь получить y = f (x), у которого Rho ближе к 1 и значение R меньше 0,5, но мне не повезло.

Если Ро придет, может ли Р. быть далеко позади? Приношу свои извинения П. Б. Шелли.