В статье Галита Шмуэли «Объяснить или предсказать» 2010 г. содержится интересное заявление в своей аннотации:

Конфликт между объяснением и предсказанием является обычным явлением, но различие необходимо понимать […]

В этой истории мы углубляемся с практической точки зрения: В чем именно разница? И должны ли мы действительно так сильно заботимся, как ученые?

Большинство специалистов по обработке данных и аналитиков проходят свое образование в области статистики и машинного обучения (ML), не уделяя слишком много внимания философским основам этой области. Но знание некоторых фундаментальных принципов вашей профессии и повседневных инструментов может оказаться полезным. Итак, давайте посмотрим на это ...

Объяснение vs. прогнозирование. Между ними есть некоторые фундаментальные различия, когда дело касается методологии и использования алгоритмов. Знание этих различий поможет вам выбрать правильные инструменты в нужный момент и избежать путаницы. Это может быть полезно тремя способами:

  1. Чтобы сознательно решить, какой метод требуется для вашей проблемы.
  2. Чтобы понять, что другой аналитик может ошибаться
  3. Чтобы знать, имеет ли разница вообще для вашей работы

Классическая статистика против машинного обучения?

Возможно, вы уже знаете одно клише между ними: предсказание - это то, что делают «специалисты по машинному обучению». Объяснение - вот что делают «экономисты и социологи». Если вы специалист по обработке данных и у вас есть друзья с экономическим или социологическим образованием, вы иногда можете заметить большую разницу между тем, как они изучали и использовали статистику, и тем, как современная учебная программа по науке о данных охватывает эти темы. Но давайте копнем глубже.

Прогнозирование направлено на нацеливание на будущие события путем изучения и извлечения уроков из прошлых событий, при этом основное внимание всегда уделяется стабильному прогнозированию будущих событий. Объяснение, с другой стороны, сосредоточено на выявлении причинно-следственных связей на основе наблюдений, сделанных в прошлом, с акцентом на системы и действующие взаимодействия.

И все же эти два понятия часто смешивают. Люди верят, что модель, которая хорошо объясняет прошлое поведение, должна сразу же хорошо предсказывать и будущее поведение. К сожалению, это не всегда так.

Давайте рассмотрим различия на высоком уровне и раскроем как для прогнозов, так и для объяснения лежащих в основе

  • «Почему»: причины выбора или использования объяснения или предсказания.
  • «Как»: каков типичный процесс объяснения и предсказания.
  • «Что»: Как выглядят типичные выходы или результаты для этих двоих?

Почему: стремление к гипотезам против отдельных случаев

Объяснительное моделирование направлено на подтверждение причинной теории, состоящей из одной или нескольких гипотез. Он отвечает на такие вопросы, как «Может ли эта теория быть верной с учетом данных?» или «Вызывает ли курение рак?». Примерами объяснительных моделей являются теория механики Ньютона или теория дарвиновской эволюции. Они постулируют четкие гипотезы, которые можно проверить с помощью данных.
Изучая данные для объяснительного моделирования, мы смотрим сквозь призму теории, сосредотачиваясь на этих (заранее) указанных причинно-следственных связях. Нас в основном интересуют данные, которые напрямую отражают части теории или, по крайней мере, очень тесно с ней связаны.
В последнее время популярным подмножеством объяснительного моделирования является причинный вывод (популяризированный Джудеей Перл), обеспечивающий более прочную основу для цель доказательства причины и следствия. И это как раз основная цель объяснительного моделирования: подтвердить или подтвердить причинно-следственную связь.

Прогнозирующее моделирование направлено на получение точных прогнозов «невидимых» событий. Он смотрит в будущее, часто оторванный от теоретической основы и гораздо более перспективный.
Изучая данные для прогнозного моделирования, мы «добываем данные в темноте», ищем интересные взаимосвязи, все, что может помочь нам делать более точные прогнозы, но не обязательно заранее уточняем гипотезы.

«Лучшие» модели, например Теория механики Ньютона очень хорошо объясняет и предсказывает. Они хорошо служат для объяснения взаимосвязей между переменными, но в то же время очень хорошо справляются с задачами прогнозирования.
К сожалению, настройки моделирования становятся более сложными и шумными (как это часто бывает в психологии, маркетинге, медицине и т. Д. ) модель, которая адекватно объясняет эффекты от прошлого исследования, может не подходить для прогнозирования будущих событий. С другой стороны, хорошо обученная ML-модель, дающая надежные прогнозы, может оказаться недостаточной для объяснения причинно-следственных связей между переменными таким образом, чтобы помочь сформировать ясную теорию.

Эти два типа моделей также могут сосуществовать и взаимно стимулировать друг друга, например сильные эффекты, выявленные объяснительной моделью, могут быть полезными функциями для прогнозной модели, в то время как важные особенности прогнозной модели могут указывать на интересные направления будущих исследований с объяснительным моделированием. По мере того, как теория и наука развиваются вокруг темы, лучшие объяснительные модели и лучшие предсказательные модели должны сходиться.

Как: причинно-следственные диаграммы против произвольного ввода-вывода

Объяснение обычно состоит из следующих 5 шагов:

  1. Придумывая теорию и соответствующие гипотезы
  2. Рисование соответствующей причинно-следственной диаграммы или отношений
  3. Операционализация диаграммы с помощью измеримых переменных
  4. Применение статистических алгоритмов (в основном регрессии) к наборам данных из исследования для проверки гипотез и причинно-следственной диаграммы.
  5. Сделайте вывод (и, возможно, уточнить, начав снова с 1.)

Обратите внимание, что в этом процессе нет тестовых данных. Обычно ученые работают только с «данными» (обычно собираемыми во время полевых работ) и оценивают степень соответствия, используя R² или аналогичные показатели, а затем устанавливают значимость с помощью проверки гипотез. Все это происходит на одних и тех же данных. Разделения поезд-тест не существует.

Прогнозирование не требует предварительной теоретической разработки и практического применения переменных. Мы узнаем прямо из данных:

  1. Найдите данные, соответствующие интересующему вас выводу
  2. Подготовьте данные, отформатировав входные (X) и выходные (Y)
  3. Обучите алгоритм общего назначения (может быть много разных типов, например, KNN, нейронная сеть или случайный лес) для изучения отношений ввода-вывода из помеченного набора данных.
  4. Протестируйте модель на ранее невидимых данных (и, возможно, уточните, начав снова с 1.)

Обратите внимание, что здесь нет причинно-следственных диаграмм, специалисты по данным обычно напрямую занимаются поиском и предварительной обработкой данных. Создание теории и любая операционализация неявны и минимальны. Цель - быстрое и простое предсказание.

Что: теория против прогнозов

Как объяснение, так и прогнозирование обычно выполняется в стандартных средах аналитики, часто кодируется с использованием стандартных инструментов, таких как Python и R. Но результаты совсем другие.

Объяснение приведет к получению таких результатов, как причинно-следственные диаграммы, уровни значимости, принятые или отклоненные гипотезы и т. д.

Прогнозирование, с другой стороны, даст на выходе модель, которую мы используем для прогнозирования новых экземпляров. Он также может создавать графики важности функций и результаты перекрестной проверки для оценки степени соответствия.

Резюме: В конце концов, не все ли так отличается?

В исходной статье упоминается более 40 различий между объяснением и прогнозированием. Большинство из них кажутся несущественными для повседневной жизни ученых. Я перечислил различия, которые делает статья, в таблице ниже. В конце концов, они не такие уж и разные ... Давайте пройдемся по некоторым из них (те, которые выделены зеленым).

Исследование данных: как исследуются данные?

Шмуэли утверждает, что исследование данных для объяснения действительно сосредоточено только на взаимосвязях, постулируемых теорией, которую нужно проверить. И что для прогнозирования он более «интерактивный».
Но я никогда не занимался исследованием данных для прогнозирования без «неявной теории» о том, что может быть интересным. В конце концов, в обоих случаях вы обнаруживаете интересные закономерности в данных на основе ментальной модели системы, которую исследуете.

Дисциплины: кто предсказывает, а кто объясняет?

По сути, это старый добрый спор о статистике и машинном обучении. Как специалист по данным, я всегда чувствовал, что это немного искусственное обсуждение. Я считаю обоих братьями или, по крайней мере, братьями-близнецами, особенно с учетом того, что статистическое сообщество в последние годы очень сильно продвинулось в сторону «статистического вывода компьютерного века» и все ближе к машинному обучению.

Метод: как это делается?

Ранее подчеркивалась разница в методах. И действительно, это действительно самая большая разница между объяснением и предсказанием в моем мнении. Две основные точки различения:

  • Объяснение не использует какой-либо набор тестов, в то время как прогнозирование во время проверки модели сильно зависит от набора тестов.
  • Объяснение с помощью причинно-следственных диаграмм против разработки функций «YOLO» в прогнозировании

Эти два, особенно первый, резюмируют ключевое различие, вокруг которого вращается вся статья.

Цель: Зачем это делается?

Хотя предсказание явно отличается от объяснения, мы не можем обойти вопрос о том, почему мы вообще хотим объяснять вещи. В большинстве случаев мы объясняем, чтобы понять, и мы хотим понять, чтобы суметь предсказать будущее поведение.

Вывод

В конце концов, предсказательное и объяснительное моделирование не так уж и сильно отличаются. Я рассматриваю статью Галит Шмуэли как толчок к тому, чтобы научное сообщество начало использовать машинное обучение и методы прогнозирования (например, перекрестную проверку) в своей работе, где переобучением и «ошибкой теста», похоже, в значительной степени пренебрегали.

С другой стороны, я считаю, что стоит также подумать о возможностях использования более объяснительных методов моделирования в повседневной жизни специалистов по данным. Что важно, так это сделать осознанный выбор в начале проекта в отношении основных целей: это просто предсказание конкретного случая или определение некоторых ключевых эффектов? В последнем случае следует четко следовать научным процессам, в том числе рисовать причинно-следственные диаграммы и записывать правильные гипотезы.

Источники

Бумага Шмуэли:



Другие источники: