Во время написания этого поста он развивался намного дольше, чем ожидалось, поэтому я разделил его на две части. Первая часть содержит теоретическую основу/краткое изложение книги Книга Почему Джудеи Перл, тогда как вторая часть имеет небольшое приложение с использованием пакета DoWhy Python.

Под влиянием утверждения «Корреляция — это не причинность», которое мы все слышали во время учебы в университете, в течение последнего месяца я прочитал книгу «Книга почему» Джуди Перл. В этой книге он описывает хороший новый подход к статистике. Я нашел идеи, касающиеся текущего статуса ИИ, очень привлекательными.

В настоящее время в статистике и машинном обучении мы имеем дело в основном с корреляционным анализом, то есть ML хорошо находит закономерности. Однако они не охватывают никаких причинно-следственных связей, т. е. того, как связаны между собой факторы. Для двух великих статистиков Пирсона и Фишера статистика — это «изучение методов обработки данных».

# Что такое причинно-следственная связь?

Причинность можно определить как влияние, посредством которого одно «событие, процесс, состояние или объект (а причина) способствует возникновению другого события, процесса, состояния, или объект (следствие), где причина частично отвечает за следствие, а следствие частично зависит от причины» (из https://en.wikipedia.org/wiki/Causality ).

Как упоминалось во многих сложных системах ОД в секторе здравоохранения или юстиции, мы полагаемся в основном на корреляции. Для усовершенствования этих систем стоило бы выявить причинно-следственные связи. В отличие от простого определения статистики, данного выше, причинно-следственный анализ включает в себя знание того, как генерируются данные.

# Лестница причинно-следственной связи

Judea Pearl предлагает Лестницу причинности, которая состоит из трех ступеней лестницы для достижения «причинности».

Шаг лестницы 1: Ассоциация

На этом этапе мы относимся к анализу связи между несколькими переменными, что эквивалентно корреляционному анализу.

Бизнес-примером является сектор электронной коммерции, где мы измеряем поведение потребителей, чтобы определить факторы, которые приводят к покупке продукта. Примеры вопросов: «Что симптом говорит мне о болезни».

Шаг лестницы 2: вмешательство

Вмешательство заключается в оценке эффекта от выполнения действия, или же можно рассуждать о причинно-следственной структуре переменных системы.

Бизнес-пример — это то, что произойдет, если мы будем следовать определенной бизнес-стратегии. Делая вывод об этом, мы могли бы избежать негативных результатов. Еще один пример вопроса: «Что, если мы запретим сигареты?».

Шаг лестницы 3: неверные факты

Контрфактуалы связаны с ретроспективными рассуждениями (например, о гипотетических ситуациях). Контрфактический вывод позволяет нам оценить ненаблюдаемые результаты.

В бизнесе мы могли бы спросить, какова вероятность того, что покупатель, купивший велосипед, все равно купил бы его, если бы мы удвоили цену. Другой пример: «Что, если бы я не курил последние 2 года».

# Причинно-следственные диаграммы

Для моделирования причинно-следственной связи между переменными используются ориентированные ациклические графы (DAG).

DAG: ориентированный ациклический граф (DAG) — это ориентированный граф без ориентированных циклов. То есть он состоит из вершин и ребер (также называемых дугами), причем каждое ребро направлено из одной вершины в другую, так что следование этим направлениям никогда не образует замкнутый цикл (из https://en.wikipedia.org/wiki /направленный_ациклический_граф)

На ориентированном графике ниже X — это причина, Y — следствие, означающее, что «X вызывает Y».

Графики причинно-следственных связей, полученные на основе идеи причинно-следственных связей, называются структурными причинно-следственными моделями (SCM).
После базовой сети с двумя узлами следующим шагом являются сети с тремя узлами. Согласно Перлу (стр. 113–115), мы можем выделить три основных типа отношений:

  • Цепь/Посредник:
    Это соединение является простейшим примером цепочки. Например, можно представить себе Y как механизм, передающий эффект X на Z. Примером может служить Fire → Smoke → Alarm. Пожар сам по себе не вызывает тревогу, поэтому прямой стрелки от пожара к тревоге нет.
    Один важный концептуальный момент заключается в том, что посредник Y отгораживает информацию о X от Z и наоборот. Например, если мы фокусируемся на Дыме (Y), то изучение Огня не является причиной для изменения нашей веры или неверия в Тревогу. Отсюда мы видим, что Пожар и Тревога условно независимы. (для получения дополнительной информации см. https://towardsdatascience.com/conditional-independence-the-backbone-of-bayesian-networks-85710f1b35b) Для нас, людей, эта независимость выглядит естественно, т.е. уже 3-летние дети могут различать между этим. Однако для машин нам необходимо предоставить причинно-следственные диаграммы.

  • Общая причина / вмешивающийся фактор:
    В этом примере график Y называется общей причиной или вмешивающимся фактором X и Z. Вмешивающийся фактор сделает X и Z статистически коррелированными, даже если между ними нет прямой причинно-следственной связи. Два фактора X и Z условно зависимы.
    Примером может служить ложная корреляция между Размером обуви ← Возрастом ребенка → Способностью к чтению. Дети с большой обувью, как правило, читают на более высоком уровне. Но связь фиктивная, так как может быть объяснена детским возрастом. У детей постарше обувь побольше, и они лучше читают.
    Если бы мы сейчас сосредоточились на определенном возрасте, например на 8 лет, то могли бы удалить ложную связь. Следовательно, мы не ожидаем никакой связи между размером обуви и способностью к чтению, что снова делает их условно независимыми.

  • Коллайдер:
    Это самое интересное соединение, потому что X и Z независимы. Соотнося их с Y, две причины становятся зависимыми. Одним из примеров является взаимосвязь трех черт голливудских актеров: Талант → Знаменитость ← Красота. Мы утверждаем, что и талант, и красота важны для успеха актера, но они совершенно независимы в обществе в целом. Этот паттерн работает противоположным образом в примере с «общей причиной». X и Z условно независимы. Но когда мы смотрим на определенное фиксированное значение Y, отношения между X и Z становятся зависимыми.
    В моем примере, ориентируясь только на успешных актеров (мы наблюдаем, что знаменитость = 1), мы получаем отрицательную корреляцию между талантом и красотой: у непривлекательной знаменитости больше таланта (мы считаем).
    Эту отрицательную корреляцию иногда называют смещением коллайдера. Чтобы быть знаменитостью, не обязательно иметь и талант, и красоту; одного достаточно.

Перл также исследует эти связи в контексте байесовских сетей. Поскольку подробное обсуждение байесовских сетей здесь не рассматривается, пожалуйста, смотрите здесь.

При работе с байесовскими сетями его внутреннее использование также строит сеть для анализа. Тем не менее, есть небольшая разница в интерпретации сети (по сравнению с причинно-следственным графом).

  • Байесовская сеть — это буквально не что иное, как компактное представление огромной таблицы вероятностей. Мы рассматриваем узлы как переменные, а стрелку — как условную вероятность. По замыслу в байесовских сетях информация течет в обоих направлениях. На самом деле байесовская сеть не может сказать, каково «причинное направление».
  • Однако в каузальной сети меняется как мышление, которое идет на построение, так и интерпретация итоговой диаграммы. Узлы по-прежнему рассматриваются как переменные; однако стрелка указывает на причинно-следственную связь. Изменение направления ребра на противоположное было бы недопустимым, поскольку интерпретация причинно-следственной сети была бы недействительной.

# Еще одно замечание о путанице

  • Вмешивающаяся систематическая ошибка возникает, когда переменная влияет как на то, кто будет выбран для лечения, так и на результат эксперимента. В некоторых случаях вмешивающиеся факторы известны, в других случаях вмешивающиеся факторы только подозреваются и действуют как «скрытая третья переменная». На приведенной ниже диаграмме показана самая простая версия смешения: Z — это смешение предполагаемой причинно-следственной связи между X и Y.

Смешение — это каузальное понятие, оно относится ко второй ступени Лестницы причинно-следственной связи, поскольку не имеет ничего общего с данными или статистикой. Смешение потребностей и причинно-следственное решение. Чтобы найти это решение, причинно-следственные диаграммы обеспечивают полный и систематический способ. Пример смешанной предвзятости, в которой предлагаемая связь Ходьба → Смертность зависит от возраста (как Z).
Однако точное определение того, что такое смешение, будет показано, когда в следующем разделе будет введен оператор do.

# Критерий бэкдора и вычисление

Перл разработал так называемое до-исчисление. Важным компонентом является способ выражения причинно-следственных связей. Это делается с помощью оператора do, который представляет собой математическое представление вмешательства. (см. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2836213/pdf/ijb1203.pdf) С помощью причинно-следственной структуры Перла мы можем оценить эффект вмешательств, используя данные наблюдений. Для этого нам также нужен важный критерий: Критерий обхода. В каузальных графах оператор do стирает все стрелки, которые входят в X, и таким образом предотвращает поток информации о X в некаузальном направлении. (Рандомизация имеет тот же эффект). Если существует какой-либо путь из X в Y, начинающийся со стрелки, указывающей на X, это называется черным ходом. X и Y будут деконфаундированы, если мы заблокируем все лазейки. Контролируя любую переменную Z, мы должны убедиться, что все лазейки заблокированы.

Вот два маленьких примера из Judea Pearl:

  • в этом примере нет стрелок, ведущих в X, и, следовательно, нет обходных путей. Нет необходимости контролировать что-либо.

  • в следующем примере мы находим один черный путь из X в Y, то есть X ← B → Y. Следовательно, нам нужно контролировать для B.

Следует отметить, что существует еще и парадный критерий, который я здесь обсуждать не буду.

Имея дело с каузальными графами, Перл разработал три основных правила того, как мы можем изменить граф, который включает оператор do, в граф без него. На этом графике мы можем применить данные наблюдений для оценки причинных эффектов. Правила таковы:

· Когда мы можем игнорировать наблюдение: когда мы наблюдаем переменную W, которая не имеет отношения к Y (возможно, зависит от других переменных Z), тогда распределение вероятностей Y не изменится, и мы можем «удалить» W.
Это означает:
P(Y | do(X), Z, W) = P(Y | do(X), Z)

· Когда мы можем игнорировать акт вмешательства: если набор Z переменных блокирует все лазейки из X в Y, то в зависимости от Z, do(X) эквивалентно see(X).
Это означает:
P(Y | do(X), Z) = P(Y | X , Z), если Z удовлетворяет бэкдор-критерию

· Когда мы можем игнорировать вмешательствопеременную: мы можем удалить do(X) из P(Y | do(X)) в любом случае где нет причинного пути от X к Y.
Это означает:
P(Y | do(X)) = P(Y)

С помощью трех правил необходимо выполнить следующее преобразование из одного каузального графа, включающего оператор do(.), в каузальный граф без оператора do. Затем этот график можно оценить с помощью данных наблюдений.

Кратко вернемся к смешению: количество, которое мы наблюдаем, является условной вероятностью результата при обработке P(Y | X). Вопрос, который мы хотим задать Природе, касается причинно-следственной связи между X и Y, которая показана интервенционной вероятностью P(Y | do(X)). Смешение затем определяется как все, что приводит к несоответствию между двумя P(Y | X) != P(Y | do(X)).

# Противоречия и возможные результаты

С помощью SCM можно моделировать контрфактуалы, которые отвечают на вопросы что, если….
В качестве широко статистической модели для моделирования контрфактических событий Перл описывает причинную модель Рубина, модель потенциального результата. Потенциальный результат переменной Y — это просто значение, которое Y приняло бы для индивидуума i, если бы X было присвоено значение x.
Основное различие между методом SCM Перла и моделью Рубина заключается в том, что Рубин не использовал причинно-следственные диаграммы. Тем не менее, Перл описывает в своей книге, что с помощью причинно-следственных диаграмм было бы легче проверить основные предположения модели потенциального результата. Перл утверждает, что особенно легко проверить основное предположение, предположение о воспламеняемости. Перл также добавляет, что ретроспективное знание (знание того, что произошло в реальном мире) является критическим различием между контрфактуалами (третья ступень Лестницы причинно-следственной связи) и вмешательством (вторая ступень).

Наиболее часто используемое применение контрфактуалов называется анализом посредничества. Посредничество определяется учеными как поиск механизма, т.е. они хотят лучше понять связь между известной причиной и известным следствием. Поиск механизма важен как для науки, так и для повседневной жизни, потому что разные механизмы требуют разных действий при изменении обстоятельств. Примером может служить причинно-следственная модель
Цитрусовые → Витамин С → Цинга, где витамин С является механизмом.
В этой части книги Перл развивает свою Формулу медиации. Основная идея заключается в том, как оценить общий эффект, прямые эффекты (которые не проходят через посредника) и косвенные эффекты (которые проходят). Обсуждение выходит за рамки данной статьи.

# ИИ и причинно-следственная связь

Очевидно, что в последние годы появились большие источники данных. Однако для того, чтобы задавать причинно-следственные вопросы, мы должны сформулировать модель процесса, генерирующего данные, или, по крайней мере, некоторых аспектов этого процесса. Если есть анализ без модели, выходные данные будут просто суммировать или преобразовывать данные, но не интерпретировать данные.
Тем не менее, интеллектуальный анализ данных полезен, так как может стать первым шагом к поиску интересных закономерностей ассоциации и постановке более точных вопросов. Затем нам нужно создать причинно-следственную модель. Следовательно, интерпретация данных означает выдвижение гипотез о том, как вещи работают в реальном мире.

Перл упоминает новую возможность симбиоза между большими данными и причинно-следственными выводами, которую он называет мобильностью. Существует множество исследований в разных местах, и данные обычно доступны. На основании этого данные могут быть объединены. Из-за (возможных) различных процессов генерации данных объединение данных следует проводить осторожно, чтобы не внести путаницу/предвзятость в объединенные данные. Ученик Перла разработал процедуру, которая здесь не описывается.

Что касается методов глубокого обучения, то существуют некоторые теоретические ограничения этих систем, в первую очередь ограничения, которые не позволяют им достичь второй или третьей ступени Лестницы причинно-следственной связи.

# Заключение

Было очень весело читать книгу и погружаться в различные идеи. Поскольку я согласен с тем, что модель ИИ должна иметь больше теоретической основы, чтобы иметь большую ценность для бизнеса/общества. Однако в реальности, как и в политической науке, сложно смоделировать все процессы как мировые, так и сложные. Тогда возникает вопрос, как смоделировать упрощенную версию, которая достаточно хороша для представления основных компонентов или механизмов.

Использованная литература:

Перл, Дж./Маккензи, Д. (2018): Книга почему. Лондон



https://david-salazar.github.io/posts/causality/2020-07-30-causality-the-front-door-criterion.html





https://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf



https://www.kaggle.com/datasets/blastchar/telco-customer-churn