Предыстория: вы делаете покупки для члена семьи, у которого сегодня вечеринка по случаю дня рождения.

Решение, сколько вы собираетесь потратить на подарок! т.е. у вас есть 50 долларов и сегодня днем, чтобы купить, упаковать и попасть на вечеринку

Есть вещи, которые находятся под вашим контролем (и у вас есть данные от предыдущих партий):

  • ОН = время, когда вы собираетесь выйти из дома, чтобы решить эту ситуацию
  • dts = время покинуть магазин
  • s = какой магазин
  • $ = сколько денег потратить
  • dtStore = среднее время в магазине, необходимое для поиска хорошего подарка
  • w = какую упаковочную бумагу использовать
  • ar = время прибытия на вечеринку

Базовые знания:

  1. ar имеет прямое отношение к dts, при условии, что вы идете прямо из магазина на вечеринку
  2. вы знаете 3 лучших магазина (ов), в которых вы можете выбрать детские подарки 1. игрушки r us 2. лучшие покупки 3. walmart
  3. вы собираетесь использовать оберточную бумагу, которая уже есть в вашем шкафу
  4. dtStore — это функция магазина, $ и ОН (место, деньги, время начала)
  5. Подарки на день рождения девушке стоят дороже, чем подарки мальчику

Время, проведенное вне дома, — это первый шаг и, вероятно, важный фактор для создания точной модели => сохранение модели. Области знаний о ваших собственных привычках уйти «вовремя».

Пол является фактором и может быть закодирован либо с помощью 1,2,3 (g,b,n/b), либо с двумя столбцами фиктивных переменных девочка/мальчик, где 10 — девочка, 01 — мальчик, 00 или 11 — недвоичное число. .Не выбор признаков, а подготовка данных. Кодирование (в частности, горячее кодирование) разбивает функцию на три отдельные функции, что упрощает поиск важности по полу и облегчает машинному чтению строку в 0 или 1 с.

Переменные Highly corr() => Проверка корреляции между прибытием на вечеринку и временем выхода из магазина. Если они сильно коррелированы, то избавьтесь от одного из них. Если у вас есть две, 3, 4, 5 и т. д. функций/переменных, которые "связаны" или коррелируют друг с другом, то есть когда одна повышается/снижается, а другая повышается/снижается на какой-то фиксированный коэффициент, вы можете уйти. с включением только одной функции из аналогичной группы. Удаление или сокращение набора функций всегда хорошо для сокращения времени вычислений — больше функций, больше вычислений. Да, при удалении любой функции вы потеряете некоторую информацию, но поскольку мы удаляем функции, которые действуют одинаково, вы теряете не так много информации (при условии, что вы отмечаете, что вы сохранили, а что было удалено).

Оберточная бумага — это либо «да», либо «нет» => Модели любят двоичные вычисления, поэтому перевод этой функции в 1 означает «да» и 0 — «нет», думайте об этом как о снижении когнитивной нагрузки на машину.

Эти примеры были просто на первом месте и не были полными. Цель состоит в том, чтобы способствовать интуитивному пониманию того, что означает «выбор функций» для неспециалиста.

Идеи, чтобы добавить к этому, всегда приветствуются! Спасибо