Типы переменных в машинном обучении

Реальная демонстрация различных типов переменных машинного обучения

«Мы верим в Бога. Все остальные должны предоставить данные »- У. Эдвардс Деминг

Введение

Понимание типов переменных очень важно в процессе машинного обучения для эффективного проведения и настройки процедур обработки данных. Я часто видел некоторую путаницу в понимании базового значения некоторых из этих фиксированных статистических терминологий. В этой статье я кратко объясню значение каждого типа переменной в машинном обучении на реальном примере.

Зависимые и независимые переменные

Зависимые переменные - это не что иное, как переменная, которая содержит явления, которые мы изучаем.

Независимые переменные - это переменные, с помощью которых мы пытаемся объяснить значение или эффект выходной переменной (зависимой переменной), создавая связь между независимой и зависимой переменной.

В математике это обычно объясняется формулой

y=f(x)

Где,

x = независимая переменная

y = зависимая переменная

Это означает, что любые изменения в x вызовут изменение значения y. Изменение может быть положительным или отрицательным.

Это просто ассоциация, а не причинность.

Например,

Нам нужно предсказать, уволится сотрудник с работы или нет. Итак, нам нужно проанализировать различные параметры, которые влияют на мышление сотрудников. Возможные переменные или параметры, которые могут влиять, следующие:

· Удовлетворенность работой

· Заработная плата

· Удаленность от дома и офиса

В приведенном выше примере мы можем предположить, что если сотрудник очень доволен своей работой, получает хорошую зарплату и близость его / ее дома от офиса очень мала, то вероятность того, что сотрудник уволится. от его работы очень низко. Обратный вывод возможен, если независимые переменные точно такие же, как сейчас. Мы совершенно уверены, что между этими переменными существует взаимосвязь, так что удовлетворенность работой, заработная плата и расстояние между домом и офисом могут иметь возможное влияние и определяющее влияние на отставку. Здесь переменные, которые мы используем для объяснения или прогнозирования результата (удовлетворенность работой, зарплата, расстояние между домом и офисом), независимы. То, что является основным явлением, которое мы изучаем, - отставка - это зависимая переменная.

Модерирующая переменная

Модерирующая переменная - это такая переменная, которая будет иметь случайное или условное влияние на отношения между независимой и зависимой переменной. Сила взаимосвязи между независимыми и зависимыми переменными может изменяться в зависимости от регулирующей переменной.

В том же примере, что и выше, если мы включим еще один параметр - «Координация команды и отношения с коллегами», то сила связи между независимыми и зависимыми переменными изменится. Даже если независимые переменные, которые мы здесь рассмотрели, положительно влияют на результат, если у сотрудника плохая командная координация и плохие отношения со своими коллегами, это может привести к увольнению, и в конечном итоге наш прогноз окажется неверным. Эффект модерирования переменных может привести к ложноположительному / ложноотрицательному результату, если с ним не обращаться должным образом.

Модерирующие переменные также иногда несут ответственность за эффект взаимодействия, который существенно влияет на результат многих статистических тестов, таких как ANOVA и хи-квадрат. Эффекты взаимодействия возникают, когда две независимые переменные влияют на результат на зависимую переменную, но когда они активируются вместе, они могут давать разные результаты.

Например, предположим, что человек X счастлив, когда идет на свадьбу один. Человек Y также счастлив, когда идет на свадьбу в одиночку. Но когда Человек X и Человек Y вместе посещают брак, они могут не стать счастливыми. Это не что иное, как эффект взаимодействия, потому что, когда независимые переменные взаимодействуют вместе и влияют на зависимую переменную, возможный результат меняется при одних и тех же обстоятельствах.

Переменные-посредники

Опосредующая или промежуточная переменная - это переменная между независимыми и зависимыми переменными (во времени), которая, как предполагается, объясняет взаимосвязь между независимыми и зависимыми переменными.

Мы можем предположить следующий сценарий только для иллюстративных целей.

Джон - сотрудник компании XYZ

· Ему хорошо платят по отраслевым стандартам.

· Он доволен своей работой - разработкой программного обеспечения.

· Его дом находится совсем рядом с его офисом

Если мы посмотрим на первые 2 пункта, мы можем предположить, что Джон очень хорошо осведомлен в своей области знаний и работает над проектом, используя технологию, в которой он очень хорошо себя чувствует. Допустим, его проект был основан на Java, и он хорошо разбирается в Java благодаря своей академической и профессиональной истории. По некоторым причинам его компании потребовалось перенести этот проект с Java на Python.

Теперь, если мы проанализируем ситуацию,

· Джон по-прежнему очень увлечен разработкой программного обеспечения.

· Возможно, Джон не чувствует такого комфорта в Python, как в Java.

· Доволен своими коллегами и компанией.

· Ему хорошо платят.

· Его дом находится рядом с офисом.

В этом случае существует вероятность того, что Джон уволится и перейдет в другую компанию, использующую Java. Но все же все независимые переменные, которые мы измерили, указывают на положительные результаты (Джон не уйдет в отставку). Здесь «Знания сотрудника в предметной области» - это носитель, через который независимые переменные передаются и преобразуются в результат. Следовательно, эта переменная является промежуточной или промежуточной.

Это похоже на временную или несущую переменную, которая переводит независимую переменную в зависимую. Точно так же почтальон несет ответственность за доставку писем от источника к месту назначения.

Контрольная переменная

Контрольная переменная используется в эмпирических исследованиях, чтобы снизить риск приписывания объяснительной способности независимых переменных, которые не несут ответственности за возникновение вариации зависимых переменных.

В том же примере, что и выше, мы можем также рассмотреть следующие переменные:

· Выручка и финансовая устойчивость компании.

· Экономическая и политическая ситуация в стране.

Мы не анализировали, что выручка компании может увеличиваться или уменьшаться в каждом квартале и тем самым прямо пропорционально влиять на заработную плату ее сотрудников.

Также очень важна экономическая и политическая ситуация в стране. Что делать, если произошла пандемия, война или рецессия?

Что, если некоторые клиенты отступят от контрактов компании и перейдут к ее конкуренту?

Эти переменные будут влиять на зависимую переменную, но это не часто встречающиеся сценарии. Если мы приняли меры наших независимых переменных, когда эти условия уже присутствуют, это может повлиять на результат. Даже если мы принимаем меры в условиях рецессии или геополитической напряженности, мы должны контролировать влияние этих переменных таким образом, чтобы они не влияли на отношения между выбранными нами независимыми переменными и зависимыми переменными.

Смущающая переменная

Смешивающая переменная - это дополнительная переменная, которую мы намеренно не изучали, но которая потенциально влияет на отношения между независимой и зависимой переменной. В большинстве случаев влияние смешивающей переменной приводит к смещенному результату.

Например, в том же примере, что и выше

Джон - сотрудник компании XYZ

· Ему хорошо платят по отраслевым стандартам.

· Он доволен своей работой - разработкой программного обеспечения.

· Его дом находится совсем рядом с его офисом

Нам нужно проанализировать это, уйдет ли Джон с работы или нет. Здесь, с общей точки зрения, каждая независимая переменная выглядит благоприятной и может дать результат «Джон не уйдет в отставку». Но все же многие смешанные переменные будут влиять на результат, который мы на самом деле не изучали.

Так же,

· Состояние здоровья сотрудника

· Семейное положение сотрудника

Если здоровье Джона ухудшается, то потенциально он уволится с работы, даже если ему хорошо платят и он доволен работой. Точно так же, если его семья решила переехать в новый город, он мог уволиться с работы, даже если все независимые переменные были готовы дать положительный результат. Эти переменные, которые потенциально влияют на результат, но не были частью исследования, называются смешивающими переменными.

Существуют различные типы влияний, которые потенциально может вызвать смешивающая переменная:

· Нормативные влияния

· Ненормативные влияния

· Влияния с оценкой истории

· Факторы влияния на возраст

Нормативные влияния

Это тип мешающего влияния, которое влияет на каждую сущность в зависимой переменной.

Например, стихийное бедствие в стране потенциально затронет каждого гражданина страны с точки зрения расходов и доходов.

Ненормативные влияния

Это тип влияния, который может не повлиять на все точки данных одинаково, но может повлиять на некоторые разделы зависимых элементов.

Например, крах фондового рынка отнимет у тех людей, которые инвестировали в акции, но не затронет тех, кто инвестировал в банки или недвижимость. События такого рода, влияющие только на определенное сообщество, называются ненормативными влияниями.

Влияния с оценкой истории

Это тип влияния, который влияет на сообщество в определенный период, например, войны, пандемии, спад и т. Д.

Факторы влияния, учитываемые по возрасту

Это тип влияния, который потенциально может повлиять на точку данных в определенном возрасте или фиксированном периоде, таком как брак, выход на пенсию, выпускной и т. Д.

использованная литература

Каруана и В. де Са, Получение выгоды от переменных, которые отбрасываются при выборе переменных. », JMLR, 3: 1245–1264 (этот выпуск), 2003.
Вапник », Статистическая теория обучения. John Wiley & Sons , Нью-Йорк, 1998.

Надеюсь, вы получили общее представление. Спасибо за чтение !!!