Специалистам по данным важно понимать причинно-следственные модели, потому что причинность играет решающую роль в понимании того, как изменения одной переменной влияют на другую переменную. В контексте науки о данных понимание причинно-следственных связей между переменными имеет решающее значение для построения точных и надежных прогностических моделей, принятия обоснованных решений и проверки гипотез.

Причинно-следственная модель позволяет исследователям данных понять основные механизмы, которые управляют изменениями в системе, а не просто наблюдать за корреляциями между переменными. Это понимание может привести к более целенаправленным вмешательствам и более точным прогнозам, которые могут способствовать более эффективному принятию решений и бизнес-результатам.

Например, специалист по данным может наблюдать сильную корреляцию между расходами на рекламу и продажами. Однако без понимания причинно-следственной связи между этими переменными было бы трудно определить наиболее эффективные стратегии максимизации продаж. Если расходы на рекламу являются причиной увеличения продаж, увеличение расходов на рекламу может привести к увеличению продаж. Если расходы на рекламу не являются причиной, а являются результатом увеличения продаж, увеличение расходов на рекламу может не привести к увеличению продаж.

Вот список алгоритмов причинно-следственного вывода, которые широко используются в отрасли.

  1. Модели структурных уравнений (SEM)
  2. Сопоставление показателей склонности (PSM)
  3. Инструментальные переменные (IV)
  4. Дизайн разрыва регрессии (RDD)
  5. Различия в различиях (DiD)
  6. Контрфактические алгоритмы справедливости
  7. Байесовские сети

Обратите внимание, что популярность этих алгоритмов может варьироваться в зависимости от области, отрасли и конкретного варианта использования. В некоторых случаях определенные алгоритмы могут более широко использоваться в определенных отраслях или для определенных типов данных. Кроме того, разработка новых алгоритмов и достижения в области машинного обучения постоянно приводят к изменениям в популярности и использовании.

  1. Модели структурных уравнений (SEM)

Модели структурных уравнений (SEM) — это тип статистической модели, используемой для представления и проверки причинно-следственных связей между переменными. Они используются для представления взаимосвязей между переменными в системе и для объяснения того, как изменения одной переменной приводят к изменениям другой переменной.

SEM — это графические модели, состоящие из набора уравнений, описывающих отношения между переменными. Уравнения определяют отношения между переменными, силу этих отношений и величину ошибки или неопределенности в отношениях. Уравнения представлены графически в виде сети узлов и ребер, где узлы представляют переменные, а ребра представляют отношения между переменными.

SEM можно использовать для проверки гипотез о взаимосвязях между переменными, для прогнозирования того, как изменения одной переменной повлияют на другую, и для оценки общего соответствия модели. Они могут использоваться как с непрерывными, так и с категориальными переменными и могут работать со сложными взаимосвязанными системами переменных.

Таким образом, модели структурных уравнений (SEM) представляют собой тип статистической модели, используемой для представления и проверки причинно-следственных связей между переменными. Они состоят из набора уравнений, описывающих отношения между переменными, которые представлены графически в виде сети узлов и ребер. SEM используются для проверки гипотез, прогнозов и оценки общего соответствия модели.

2. Сопоставление показателей склонности (PSM)

Сопоставление показателей склонности (PSM) - это метод причинно-следственного вывода, используемый в обсервационных исследованиях для контроля смешанных переменных. Цель PSM состоит в том, чтобы создать группу сравнения лиц, максимально похожих на группу лечения, но не получавших лечения.

В PSM каждому человеку в исследовании присваивается оценка склонности, которая представляет вероятность того, что он получил лечение. Показатель склонности оценивается с использованием статистической модели, такой как логистическая регрессия, которая учитывает взаимосвязь между статусом лечения и набором ковариат или вмешивающихся факторов.

После того, как показатели склонности были оценены, индивидуумы в группе лечения сопоставляются с лицами в группе сравнения, которые имеют аналогичные показатели склонности. Это помогает обеспечить максимально возможное сходство группы сравнения с группой лечения в отношении ковариат перед анализом эффекта лечения.

PSM можно использовать для оценки среднего эффекта лечения в обсервационных исследованиях, где рандомизация лечения невозможна. Контролируя смешанные переменные с помощью показателей склонности, PSM может помочь уменьшить систематическую ошибку в предполагаемом эффекте лечения и обеспечить более точную оценку причинно-следственной связи между лечением и интересующим исходом.

Таким образом, сопоставление показателей склонности (PSM) представляет собой метод причинно-следственного вывода, используемый для контроля смешанных переменных в обсервационных исследованиях. PSM присваивает каждому человеку балл склонности, который представляет вероятность того, что он получил лечение, и сопоставляет людей в группе лечения с людьми в группе сравнения, которые имеют аналогичные баллы склонности. Это помогает уменьшить систематическую ошибку в предполагаемом эффекте лечения и обеспечить более точную оценку причинно-следственной связи между лечением и интересующим исходом.

В заключение, понимание причинно-следственной связи имеет важное значение для специалистов по данным, поскольку оно позволяет им создавать более точные и надежные прогностические модели, принимать обоснованные решения и проверять гипотезы. Понимая причинно-следственные связи, специалисты по обработке и анализу данных могут лучше понять основные механизмы, которые управляют изменениями в системе, и использовать это понимание для достижения лучших бизнес-результатов.