Как извлечь максимальную пользу из вашего набора данных?

Прогнозы, которые мы делаем на основе набора данных, вероятно, являются нашим лучшим выбором, когда дело доходит до принятия бизнес-решений. Несмотря на выбор правильного набора данных, очистку данных и применение правильной аналитической модели, могут возникнуть проблемы, с которыми мы сталкиваемся при получении правильных прогнозов. Давайте посмотрим на некоторые из причин, которые могут стоять за этим.

Мы все еще можем терпеть неудачи, несмотря на использование правильных аналитических методов. Новичку довольно сложно понять, почему именно это происходит. Ну, может быть несколько причин, но одна из вероятных причин заключается в присвоении одного и того же приоритета каждому элементу в наборе данных.

Предположим, вы работаете менеджером на Большом базаре и должны предсказать среднюю сумму продажи, которую вы ожидаете получить от нового покупателя. Таким образом, вашей целевой переменной является сумма продажи. Эта целевая переменная влияет на несколько бизнес-решений, которые вам необходимо принять, таких как количество и типы продуктов, которые необходимо заказать, дополнительных сотрудников, которых необходимо принять, и т. д.

Чтобы вычислить эту цель, вы можете использовать набор данных, который состоит из вашего существующего листа продаж, содержащего сведения о клиенте, которые влияют на продажу вашего продукта. Здесь даже правильные данные и модель линейной регрессии могут дать вам неточный прогноз.

Вот почему. Ваш список, вероятно, содержит все виды клиентов, устоявшихся, давних (назовем тип А), относительно новых клиентов (тип С) и тех, кто находится где-то посередине (тип Б). В этом случае данные от давно установленных клиентов, вероятно, будут более точными, чем данные от новых клиентов, но вы даете одинаковый приоритет каждому элементу в наборе данных. Чтобы получить более точный прогноз, более высокий приоритет должен быть отдан данным от более авторитетных клиентов.

Этот приоритет можно реализовать в аналитической модели, просто создав новый столбец, в котором указывается вес каждой строки данных. Каждой строке, содержащей информацию от постоянных клиентов, следует присвоить более высокий вес, а более новым клиентам — более низкий вес. Это может быть реализовано следующим образом:

Чем больше внимания будет уделяться данным, полученным от давно существующих компаний, ваши прогнозы окажутся более точными, что приведет к гораздо лучшим решениям.

Как аналитик данных или даже предприниматель, мы должны понимать, что разные факторы могут по-разному влиять на прогнозы. Все факторы не имеют одинакового эффекта, и наши модели прогнозирования должны отражать это. Я надеюсь, что это помогло вам принять более правильные решения для создания и оценки вашей аналитической модели. Очень хотелось бы услышать в комментариях какой опыт создания подобных аналитических моделей.

Как извлечь максимальную пользу из вашего набора данных?

Вопросы по теме