Почему описательная статистика имеет значение в науке о данных

В области статистики можно выделить два основных направления:

Описательная статистика

Выводная статистика

В предыдущей статье я поделился семью причинами важности статистики. В этом рассказе я приведу подробное описание описательной статистики.

Описательная статистика

Короче говоря, описательная статистика предназначена для описания блока необработанных данных с использованием сводной статистики, графиков и таблиц.

Описательная статистика полезна, потому что она позволяет вам понять группу данных гораздо быстрее и проще, чем просто смотреть на ряды и ряды необработанных значений данных.

Например, предположим, что у нас есть набор необработанных данных, показывающих результаты тестов 1000 учащихся в определенной школе. Нас может заинтересовать средний балл теста вместе с распределением тестов.

Используя описательную статистику, мы могли бы найти средний балл и построить график, который поможет нам визуализировать распределение баллов.

Это позволяет нам гораздо легче понять результаты тестов студентов по сравнению с простым просмотром необработанных данных.

Общие формы описательной статистики

Существуют три распространенные формы описательной статистики:

1. Сводные статистические данные. Это статистика, которая обобщает данные с использованием одного числа. Существует два популярных типа сводной статистики:

  • Показатель центральной тенденции: эти числа описывают, где находится центр набора данных. Примеры включают среднее и медиану.
  • Показатель дисперсии: эти числа описывают, насколько разбросаны значения в наборе данных. Примеры включают диапазон, межквартильный диапазон, стандартное отклонение и дисперсию.

2. Графики. Графики помогают нам визуализировать данные. Общие типы графиков, используемых для визуализации данных, включают в себя коробчатые диаграммы, гистограммы и диаграммы рассеяния.

3. Таблицы. Таблицы могут помочь нам понять, как распределяются данные. Одним из распространенных типов таблиц является частотная таблица, которая сообщает нам, сколько значений данных попадает в определенные диапазоны.

Пример использования описательной статистики

Следующий пример иллюстрирует, как мы можем использовать описательную статистику в реальном мире.

Предположим, что 1000 учеников одной школы сдают один и тот же тест. Нас интересует распределение результатов тестов, поэтому мы используем следующую описательную статистику:

1. Сводная статистика

Среднее: 82,13. Это говорит нам о том, что средний балл теста среди всех 1000 студентов составляет 82,13.

Медиана: 84.Это говорит о том, что половина всех учащихся набрала больше 84 баллов, а половина — меньше 84.

Максимум: 100. Минимум: 45.Это говорит нам о том, что максимальное количество баллов, которое получил любой учащийся, было 100, а минимальное количество баллов было 45. диапазон, который говорит нам о разнице между макс, а мин 55.

2. Графики

Чтобы визуализировать распределение результатов тестов, мы можем создать гистограмму — тип диаграммы, в которой для представления частот используются прямоугольные столбцы.

Основываясь на этой гистограмме, мы видим, что распределение результатов тестов примерно колоколообразное (поясню это в следующих статьях). Большинство студентов набрали от 70 до 90 баллов, очень немногие набрали больше 95 баллов, а меньше 50 баллов.

3. Таблицы

Еще один простой способ получить представление о распределении баллов — составить таблицу частот. Например, в следующей таблице частот показано, какой процент учащихся набрал баллы между различными диапазонами:

Мы видим, что только 4% всех студентов набрали больше 95 баллов. Мы также можем увидеть, что (12% + 9% + 4% = ) 25% всех студентов набрали 85 баллов или выше.

Таблица частот особенно полезна, если мы хотим знать, какой процент значений данных находится выше или ниже определенного значения. Например, предположим, что школа считает «приемлемой» тестовой оценкой любую оценку выше 75.

Глядя на таблицу частот, мы можем легко увидеть, что (20% + 22% + 12% + 9% + 4% =) 67% учащихся получили приемлемый результат теста.

Надеюсь, вам понравился этот пост в блоге об описательной статистике. Если вы нашли его полезным, пожалуйста, поставьте лайк и поделитесь им со своими коллегами-исследователями данных. Я также буду признателен за любой ваш отзыв о посте.