В статье Галита Шмуэли «Объяснить или предсказать» 2010 г. содержится интересное заявление в своей аннотации:
Конфликт между объяснением и предсказанием является обычным явлением, но различие необходимо понимать […]
В этой истории мы углубляемся с практической точки зрения: В чем именно разница? И должны ли мы действительно так сильно заботимся, как ученые?
Большинство специалистов по обработке данных и аналитиков проходят свое образование в области статистики и машинного обучения (ML), не уделяя слишком много внимания философским основам этой области. Но знание некоторых фундаментальных принципов вашей профессии и повседневных инструментов может оказаться полезным. Итак, давайте посмотрим на это ...
Объяснение vs. прогнозирование. Между ними есть некоторые фундаментальные различия, когда дело касается методологии и использования алгоритмов. Знание этих различий поможет вам выбрать правильные инструменты в нужный момент и избежать путаницы. Это может быть полезно тремя способами:
- Чтобы сознательно решить, какой метод требуется для вашей проблемы.
- Чтобы понять, что другой аналитик может ошибаться
- Чтобы знать, имеет ли разница вообще для вашей работы
Классическая статистика против машинного обучения?
Возможно, вы уже знаете одно клише между ними: предсказание - это то, что делают «специалисты по машинному обучению». Объяснение - вот что делают «экономисты и социологи». Если вы специалист по обработке данных и у вас есть друзья с экономическим или социологическим образованием, вы иногда можете заметить большую разницу между тем, как они изучали и использовали статистику, и тем, как современная учебная программа по науке о данных охватывает эти темы. Но давайте копнем глубже.
Прогнозирование направлено на нацеливание на будущие события путем изучения и извлечения уроков из прошлых событий, при этом основное внимание всегда уделяется стабильному прогнозированию будущих событий. Объяснение, с другой стороны, сосредоточено на выявлении причинно-следственных связей на основе наблюдений, сделанных в прошлом, с акцентом на системы и действующие взаимодействия.
И все же эти два понятия часто смешивают. Люди верят, что модель, которая хорошо объясняет прошлое поведение, должна сразу же хорошо предсказывать и будущее поведение. К сожалению, это не всегда так.
Давайте рассмотрим различия на высоком уровне и раскроем как для прогнозов, так и для объяснения лежащих в основе
- «Почему»: причины выбора или использования объяснения или предсказания.
- «Как»: каков типичный процесс объяснения и предсказания.
- «Что»: Как выглядят типичные выходы или результаты для этих двоих?
Почему: стремление к гипотезам против отдельных случаев
Объяснительное моделирование направлено на подтверждение причинной теории, состоящей из одной или нескольких гипотез. Он отвечает на такие вопросы, как «Может ли эта теория быть верной с учетом данных?» или «Вызывает ли курение рак?». Примерами объяснительных моделей являются теория механики Ньютона или теория дарвиновской эволюции. Они постулируют четкие гипотезы, которые можно проверить с помощью данных.
Изучая данные для объяснительного моделирования, мы смотрим сквозь призму теории, сосредотачиваясь на этих (заранее) указанных причинно-следственных связях. Нас в основном интересуют данные, которые напрямую отражают части теории или, по крайней мере, очень тесно с ней связаны.
В последнее время популярным подмножеством объяснительного моделирования является причинный вывод (популяризированный Джудеей Перл), обеспечивающий более прочную основу для цель доказательства причины и следствия. И это как раз основная цель объяснительного моделирования: подтвердить или подтвердить причинно-следственную связь.
Прогнозирующее моделирование направлено на получение точных прогнозов «невидимых» событий. Он смотрит в будущее, часто оторванный от теоретической основы и гораздо более перспективный.
Изучая данные для прогнозного моделирования, мы «добываем данные в темноте», ищем интересные взаимосвязи, все, что может помочь нам делать более точные прогнозы, но не обязательно заранее уточняем гипотезы.
«Лучшие» модели, например Теория механики Ньютона очень хорошо объясняет и предсказывает. Они хорошо служат для объяснения взаимосвязей между переменными, но в то же время очень хорошо справляются с задачами прогнозирования.
К сожалению, настройки моделирования становятся более сложными и шумными (как это часто бывает в психологии, маркетинге, медицине и т. Д. ) модель, которая адекватно объясняет эффекты от прошлого исследования, может не подходить для прогнозирования будущих событий. С другой стороны, хорошо обученная ML-модель, дающая надежные прогнозы, может оказаться недостаточной для объяснения причинно-следственных связей между переменными таким образом, чтобы помочь сформировать ясную теорию.
Эти два типа моделей также могут сосуществовать и взаимно стимулировать друг друга, например сильные эффекты, выявленные объяснительной моделью, могут быть полезными функциями для прогнозной модели, в то время как важные особенности прогнозной модели могут указывать на интересные направления будущих исследований с объяснительным моделированием. По мере того, как теория и наука развиваются вокруг темы, лучшие объяснительные модели и лучшие предсказательные модели должны сходиться.
Как: причинно-следственные диаграммы против произвольного ввода-вывода
Объяснение обычно состоит из следующих 5 шагов:
- Придумывая теорию и соответствующие гипотезы
- Рисование соответствующей причинно-следственной диаграммы или отношений
- Операционализация диаграммы с помощью измеримых переменных
- Применение статистических алгоритмов (в основном регрессии) к наборам данных из исследования для проверки гипотез и причинно-следственной диаграммы.
- Сделайте вывод (и, возможно, уточнить, начав снова с 1.)
Обратите внимание, что в этом процессе нет тестовых данных. Обычно ученые работают только с «данными» (обычно собираемыми во время полевых работ) и оценивают степень соответствия, используя R² или аналогичные показатели, а затем устанавливают значимость с помощью проверки гипотез. Все это происходит на одних и тех же данных. Разделения поезд-тест не существует.
Прогнозирование не требует предварительной теоретической разработки и практического применения переменных. Мы узнаем прямо из данных:
- Найдите данные, соответствующие интересующему вас выводу
- Подготовьте данные, отформатировав входные (X) и выходные (Y)
- Обучите алгоритм общего назначения (может быть много разных типов, например, KNN, нейронная сеть или случайный лес) для изучения отношений ввода-вывода из помеченного набора данных.
- Протестируйте модель на ранее невидимых данных (и, возможно, уточните, начав снова с 1.)
Обратите внимание, что здесь нет причинно-следственных диаграмм, специалисты по данным обычно напрямую занимаются поиском и предварительной обработкой данных. Создание теории и любая операционализация неявны и минимальны. Цель - быстрое и простое предсказание.
Что: теория против прогнозов
Как объяснение, так и прогнозирование обычно выполняется в стандартных средах аналитики, часто кодируется с использованием стандартных инструментов, таких как Python и R. Но результаты совсем другие.
Объяснение приведет к получению таких результатов, как причинно-следственные диаграммы, уровни значимости, принятые или отклоненные гипотезы и т. д.
Прогнозирование, с другой стороны, даст на выходе модель, которую мы используем для прогнозирования новых экземпляров. Он также может создавать графики важности функций и результаты перекрестной проверки для оценки степени соответствия.
Резюме: В конце концов, не все ли так отличается?
В исходной статье упоминается более 40 различий между объяснением и прогнозированием. Большинство из них кажутся несущественными для повседневной жизни ученых. Я перечислил различия, которые делает статья, в таблице ниже. В конце концов, они не такие уж и разные ... Давайте пройдемся по некоторым из них (те, которые выделены зеленым).
Исследование данных: как исследуются данные?
Шмуэли утверждает, что исследование данных для объяснения действительно сосредоточено только на взаимосвязях, постулируемых теорией, которую нужно проверить. И что для прогнозирования он более «интерактивный».
Но я никогда не занимался исследованием данных для прогнозирования без «неявной теории» о том, что может быть интересным. В конце концов, в обоих случаях вы обнаруживаете интересные закономерности в данных на основе ментальной модели системы, которую исследуете.
Дисциплины: кто предсказывает, а кто объясняет?
По сути, это старый добрый спор о статистике и машинном обучении. Как специалист по данным, я всегда чувствовал, что это немного искусственное обсуждение. Я считаю обоих братьями или, по крайней мере, братьями-близнецами, особенно с учетом того, что статистическое сообщество в последние годы очень сильно продвинулось в сторону «статистического вывода компьютерного века» и все ближе к машинному обучению.
Метод: как это делается?
Ранее подчеркивалась разница в методах. И действительно, это действительно самая большая разница между объяснением и предсказанием в моем мнении. Две основные точки различения:
- Объяснение не использует какой-либо набор тестов, в то время как прогнозирование во время проверки модели сильно зависит от набора тестов.
- Объяснение с помощью причинно-следственных диаграмм против разработки функций «YOLO» в прогнозировании
Эти два, особенно первый, резюмируют ключевое различие, вокруг которого вращается вся статья.
Цель: Зачем это делается?
Хотя предсказание явно отличается от объяснения, мы не можем обойти вопрос о том, почему мы вообще хотим объяснять вещи. В большинстве случаев мы объясняем, чтобы понять, и мы хотим понять, чтобы суметь предсказать будущее поведение.
Вывод
В конце концов, предсказательное и объяснительное моделирование не так уж и сильно отличаются. Я рассматриваю статью Галит Шмуэли как толчок к тому, чтобы научное сообщество начало использовать машинное обучение и методы прогнозирования (например, перекрестную проверку) в своей работе, где переобучением и «ошибкой теста», похоже, в значительной степени пренебрегали.
С другой стороны, я считаю, что стоит также подумать о возможностях использования более объяснительных методов моделирования в повседневной жизни специалистов по данным. Что важно, так это сделать осознанный выбор в начале проекта в отношении основных целей: это просто предсказание конкретного случая или определение некоторых ключевых эффектов? В последнем случае следует четко следовать научным процессам, в том числе рисовать причинно-следственные диаграммы и записывать правильные гипотезы.
Источники
Бумага Шмуэли:
Другие источники:
- Яркони Т. и Джейкоб Вестфол. «В психологии предпочтение прогнозу вместо объяснения: уроки машинного обучения». Перспективы психологической науки 12 (2017): 1100–1122.
- Https://medium.com/@cheahwen1997/weight-prediction-based-on-height-with-machine-learning-2069177e0510
- Документы, связанные с бумагой Шмуэли: https://www.connectedpapers.com/main/a5eb4df59aae5d9ea061024e975072971c50d134/To-Explain-or-to-Predict/graph