Статистика в науке о данных

Искусство принятия решений

Статистика в науке о данных

Анализ, прогноз и классификация

Математика, вероятно, одна из самых важных тем, лежащих в основе почти всех достижений в области технологий. Сфера науки о данных не существовала бы без математики. Все вспомогательные области науки о данных, от обработки естественного языка до усовершенствованного искусственного интеллекта, построены на трех четко определенных математических областях. В основе каждой области науки о данных вы найдете приложения теории вероятностей, линейной алгебры и статистики. Я писал статьи о применении теории вероятностей и линейной алгебры в науке о данных.

Теория вероятностей в науке о данных
Четыре наиболее распространенных распределения вероятности, используемые в науке о данных в отношенииdatascience.com

Однако в этой статье мы обсудим последний элемент математики в науке о данных - статистику. Статистика как дисциплина получила наибольшее развитие в прошлом веке. Напротив, теория вероятностей - математическая основа статистики - была создана в 17 веке и в 19 веке на основе работ Томаса Байеса, Пьера-Симона Лапласа и Карла Гаусса. В отличие от чисто теоретической природы теории вероятностей, статистика - это прикладная наука, занимающаяся анализом и моделированием данных.

5 приложений линейной алгебры в науке о данных
Линейная алгебра в ML, CV и NLP в сторонуdatascience.com

Статистика участвует на всех этапах науки о данных, от первого этапа очистки, изучения и анализа данных до создания регрессионных моделей для сопоставления данных и, наконец, использования этих знаний для составления прогнозов на основе этих данных. Статистика - это набор принципов и параметров, которые помогают специалистам по обработке данных получать информацию о своих данных для принятия решений, когда они сталкиваются с неопределенностью. Использование статистики помогает нам раскрыть секреты, хранящиеся в данных, и использовать эти секреты для создания более совершенных и точных моделей прогнозирования.

В этой статье мы обсудим четыре способа использования статистики в науке о данных. Мы рассмотрим анализ и категоризацию данных, тестирование значимости, регрессию и прогнозирование, и, наконец, поговорим о классификации данных.

Давайте перейдем к делу ...

Анализ и категоризация данных

Когда мы начинаем новый проект по науке о данных, мы получаем данные из разных источников. Данные могут поступать из предыдущих взаимодействий с пользователем; от датчика о погоде, это может быть поток изображений или видео, или это может быть просто текст, отправленный через сообщения или голосовые каналы. Проблема с необработанными данными в том, что они неструктурированы и их трудно анализировать. Компьютеры хорошо умеют находить закономерности и работать со структурированными данными; вот почему нам нужно преобразовывать необработанные данные в структурированные данные, чтобы выполнять с ними различные процессы.

Существует два основных типа структурированных данных: числовые и категориальные. Числовые данные могут быть двух видов: непрерывные, например, температура, продолжительность или влажность, и дискретные, например, количество наступление события. С другой стороны, у нас есть категориальные данные, которые принимают только фиксированный набор значений, таких как дни недели, названия стран в конкретном контенте и т. Д. Категориальные данные также имеют два типа: двоичные данные, которые могут принимать только одно из двух значений: 0/1, да / нет или истина / ложь. Другой тип категориальных данных - это порядковые данные, где категории упорядочены; Примером этого является числовой рейтинг (1, 2, 3, 4 или 5).

Исследовательский анализ данных

Исследовательский анализ данных (EDA) - это метод, используемый в науке о данных для подготовки данных для моделирования. В основном речь идет об очистке и ознакомлении с вашими данными; Поступая так, вы либо получите необходимые ответы, либо разовьете интуицию для интерпретации результатов для будущего моделирования. EDA выполняется для получения различной информации о данных.

Выборка данных.
Заполнение пропущенных значений.
Найдите закономерности в данных.

EDA может быть выполнен на Python с использованием библиотеки Pandas; мы можем использовать Matplotlib и Bokeh для визуализации данных.

Например, здесь я использовал набор данных Titanic из этой коллекции наборов данных R.

Проверка значимости

Тесты значимости (также известные как тесты гипотез) широко используются в традиционном статистическом анализе, цель которого - помочь нам узнать, являются ли результаты события случайными. Чтобы провести тест, мы собираем данные по двум переменным A и B, так что любая наблюдаемая разница между A и B должна быть вызвана либо:

Изменение B случайно и не зависит от A.
Между A и B существует настоящая зависимость

Статистическая проверка гипотез производится на основе рандомизированного эксперимента, чтобы оценить, является ли случайный случай разумным объяснением наблюдаемой разницы между двумя переменными. Статистическая гипотеза - это способ защитить исследователей от случайного обмана. Есть два типа гипотез:

Нулевые гипотезы: две категориальные переменные независимы (никакая связь между их значениями и какой-либо корреляцией не является случайной).
Альтернативные гипотезы: две категориальные переменные зависимы.

Есть много различных типов проверки значимости; однако в этой статье я сосредоточусь на трех наиболее часто используемых: критерий хи-квадрат, t-критерий Стьюдента и тест дисперсионного анализа (ANOVA).

Тест хи-квадрат

Тест хи-квадрат проверяет, связаны ли две категориальные переменные между собой или независимы, путем вычисления значения «p», которое представляет вероятность того, что эти два данных являются независимыми. Этот тест работает только для категориальных данных (данных в категориях), таких как пол {мужчины, женщины} или цвет {красный, желтый, зеленый, синий}, но не числовые такие данные, как рост или вес.

T-критерий Стьюдента

T-тест показывает, насколько значительны различия между переменными; Другими словами, он позволяет узнать, могут ли эти различия быть результатом случайности. Чтобы t-критерий был точным, наблюдения в каждой выборке должны иметь нормальное распределение и иметь одинаковую дисперсию.

Тест дисперсионного анализа (ANOVA)

Тест ANOVA - это способ выяснить, являются ли результаты события или эксперимента значимыми. Другими словами, они помогают нам понять, можем ли мы отклонить нулевую гипотезу или принять альтернативную гипотезу. Мы тестируем образцы, чтобы увидеть, есть ли между ними разница. Тесты ANOVA бывают двух типов: односторонние и двусторонние:

Одностороннее движение имеет одну независимую переменную. Например, сорт риса.
Двусторонний имеет две независимые переменные. Например, тип риса и калорийность.

Регрессия и прогноз

Основная причина использования статистики в науке о данных - это возможность найти ответ на вопрос: Связана ли переменная X с Y? и если да, то какова связь между ними, и можем ли мы использовать это отношение для прогнозирования будущих значений Y?

Мы можем смоделировать взаимодействие двух переменных с помощью регрессии. Регрессия описывает взаимосвязь между двумя переменными, например, увеличивается ли X с увеличением Y? Или Y уменьшается с увеличением X? Существует несколько типов регрессии, линейной регрессии, логистической регрессии, полиномиальной регрессии, ступенчатой регрессии, гребневой регрессии, лассо-регрессии и регрессии ElasticNet. Однако в большинстве проектов по науке о данных мы используем линейные и логистические регрессии.

Линейная регрессия

В линейной регрессии зависимая переменная является непрерывной, а независимая переменная может быть непрерывной или дискретной. Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X), используя прямую линию наилучшего соответствия между различными точками. Эту подходящую линию часто называют «линией регрессии».

Логистическая регрессия

Логистическая регрессия используется для определения вероятности успеха или неудачи события. Логистическая регрессия часто используется, когда прогнозируемая переменная является двоичной (0/1, Истина / Ложь, Да / Нет). Логистическая регрессия обычно используется для решения задач классификации и часто требует большого размера выборки для точного функционирования.

Классификация

Специалисты по обработке данных часто сталкиваются с проблемами, требующими автоматизированного принятия решений. Например, является ли электронная почта допустимым или спамом, возможно ли нажать на рекламу или нет. Проблемы такого типа называются проблемами классификации. Классификация, пожалуй, самая важная форма предсказания; иногда нам нужно классифицировать данные по двоичным категориям или, возможно, по порядковой классификации. Логистическая регрессия может использоваться в задачах классификации, других алгоритмах, используемых для классификации: наивный байесовский метод, стохастический градиентный спуск, дерево решений, случайный лес и машина опорных векторов. В качестве примера алгоритмов классификации давайте обсудим алгоритмы Наивного Байеса и алгоритмы K-ближайших соседей.

Наивный байесовский

Наивные байесовские классификаторы - это набор алгоритмов классификации, основанных на теореме Байеса. Это семейство алгоритмов, в котором все они разделяют общий принцип. Фундаментальное предположение в алгоритме Байеса состоит в том, что переменные независимы и одинаково влияют на зависимую переменную. Этот алгоритм требует лишь небольшого количества обучающих данных и является чрезвычайно быстрым по сравнению с более сложными методами. Однако, как известно, наивная байесовская оценка не столь точна.

K-Ближайшие соседи

Алгоритм k-ближайших соседей не пытается построить общую внутреннюю модель, а только сохраняет значения обучающих данных, а затем использует эти значения в процессе классификации. Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки. Этот алгоритм является одним из самых простых в реализации, устойчив к зашумленным обучающим данным и полезен, если обучающие данные значительны.

Наука о данных - это математика, вычисление вероятностей, решение некоторых уравнений для определения взаимосвязи между переменными и использование статистики для оценки, классификации и прогнозирования будущих данных. Хорошо то, что вам не нужно выполнять какие-либо математические вычисления вручную, такие библиотеки, как Pandas, Scikit и Matplotlib, отлично справляются с задачей сокрытия сложной математики, стоящей за наукой о данных. Вот почему наиболее важным аспектом здесь является понимание логики того, как все работает, и дальнейшее развитие событий.

использованная литература

[1] Диггл П. Дж. (2015). Статистика: наука о данных для 21 века. Журнал Королевского статистического общества: серия A (Статистика в обществе), 178 (4), 793–813.

[2] Брюс П., Брюс А. и Гедек П. (2020). Практическая статистика для специалистов по данным: более 50 основных концепций с использованием R и Python. O’Reilly Media.

Статистика в науке о данных

Искусство принятия решений