Принципы с самого начала: создавать элегантные модели

Наука о данных - не новая область. Это как раз означает применение науки к данным. Наука применяется к данным так же, как и в любой другой области исследований.

Исторически сложилось так, что исследования в любой области, а именно в физике, медицине, давали много данных из экспериментов и наблюдений. Таким образом, наука о данных может рассматриваться как неотъемлемая часть каждой области исследований от нескольких десятилетий до столетий.

В этой статье мы рассмотрим пару ведущих исторических исследований, одно в области космических исследований, а другое в области общественного здравоохранения, и попытаемся выяснить, какие стандарты и принципы они передают ученым, работающим с данными в этом веке.

Предисловие:

Наука о данных включает три основных компонента:

  1. Математика
  2. Статистика и
  3. Методика расчета двух вышеупомянутых

Третий компонент, показанный выше, зависит от технологии и продолжает меняться с течением времени по мере развития технологии.

1 и 2 постоянны во времени, и поэтому Data Science предлагает нам много возможностей для изучения и использования исторических приложений.

Время, необходимое для расчета математики и статистики, определяет, сколько науки мы можем применить к данным.

Перейдем к приложениям.

Приложения

Исследование космоса №1 за более чем 150 лет для определения законов движения

Это включает в себя сбор данных, преобразование, детерминистический анализ и обобщение теорий.

  1. Тихо Браге провел несколько экспериментов и собрал огромное количество пространственных данных, которые позже стали основой для нескольких научных открытий.
  2. Современник Тихо Иоганн Кеплер применил математические теории к данным и определил движение планет. Кеплер обосновал свои законы, основанные на геометрии.
  3. Спустя несколько десятилетий преемник Кеплера сэр Исаак Ньютон обобщил геометрию и физику, лежащие в основе движения планет, и сформулировал законы движения. Обнаружил закономерности в движении естественных тел и определил, как их можно применить к любому механическому телу, которое мы создаем.

# 2: Исследования в области эпидемиологии для проведения санитарных реформ в общественном здравоохранении

Это также включает в себя сбор данных, преобразование, детерминированный анализ и обобщение теорий.

  • Флоренс Найтингейл, основательница современного медсестринского дела, собрала и проанализировала множество статистических данных о пациентах и ​​медицинских учреждениях во время войны.
  • Ее современник сэр Эдвин Чедвик провел статистический анализ санитарных реформ в борьбе с такими эпидемиями, как холера. Он определил анекдотические причины распространения болезни и подтвердил их статистическими данными.
  • Органы здравоохранения выявили изменения в схемах распространения болезней и обобщили реформы как руководящие принципы общественного здравоохранения, которые улучшили условия жизни во многих странах.

Теперь давайте разберемся, что общего между этими двумя примерами, что может послужить принципами для следующих поколений.

Принципы

В обоих примерах общие три фазы:

  1. Сбор данных,
  2. Определите причину или поведение и
  3. Обобщайте по шаблонам.

Принципы, очевидные в этих приложениях, как описано ниже, актуальны во все времена. Они применимы ко всем задачам Data Science сегодня и ближайшего будущего:

  1. Собирать
  • Сбор данных - это тоже наука. Это требует предельных знаний о предметной области.
  • Собранные данные нельзя использовать немедленно. Будьте терпеливы, даже если не видите немедленного результата. Собирайте данные для будущих нужд с учетом развития технологий.
  • Разумно планируйте эксперименты и собирайте данные на наиболее детальном уровне, используя правильные контрольные точки в нужное время.

2. Определить

  • Определите решаемую проблему и сначала примените теорию. Теория, способная объяснить определенное поведение в проблемной области. Позже используйте инструменты для вычисления математики в соответствии с требованиями теории.
  • Форсированное приспособление теории к заранее определенному инструменту не может дать достаточного обоснования наблюдаемого поведения.

3. Обобщить

  • Подтвердите рассуждения на основе нескольких перестановок и комбинаций. Определите закономерности в поведении.
  • Сопоставьте наблюдения и обобщите поведение по областям и времени.

Резюме:

Наука о данных существует на практике как минимум несколько столетий. Принципы решения проблемы сохранились после великих открытий, таких как движение планет и распространение эпидемии.

Применяйте проверенные принципы при решении задач науки о данных сегодня и ближайшего будущего. Элегантные модели нуждаются в том, чтобы этапы были похожими - собирать детализацию, определять с помощью рассуждений и обобщать как образец.

Первоначально опубликовано на https://www.meritedin.com.