На прошлой неделе Instacart выпустил свой первый общедоступный набор данных. Набор данных содержал более 3 миллионов заказов на продукты от более чем 200 000 пользователей Instacart. Определенно, огромное количество данных, из которых можно сделать выводы. Итак, я заставил работать свои аналитические инстинкты.

Я много читал об одержимости американцев экологически чистыми продуктами. Данные рассказали ту же историю. 15 из 20 наиболее заказываемых товаров были экологически чистыми. По этим товарам я анализировал заказы в каждый час дня. У большинства из них сюжет выглядел одинаково.

Существует пик около 9-го часа дня и еще один пик в течение 14-го и 15-го часа дня. Результаты интуитивно понятны? Я думаю да. Большинство людей заказывают продукты утром на завтрак и обед. Или поздно вечером после обеда. Эту статистику можно использовать для управления запасами, а также для планирования и оптимизации ресурсов для поставок.

Еще один интересный анализ - это предметы, которые меняются чаще всего. Интуитивно я отвечу: молоко, яйца или буханка хлеба. Они потребляются почти каждый день, поэтому вы можете ожидать много повторных заказов. На приведенном ниже графике показаны 20 наиболее часто повторно заказываемых количеств с указанием процента повторного заказа.

Переходим от этих интересных визуализаций к сложной прогнозной аналитике. На основе доступных функций можем ли мы предсказать количество заказов, повторных заказов и первичных заказов для следующего визита клиента?

Прежде чем делать какие-либо прогнозы, я хотел бы задать себе следующий вопрос: имеет ли это предсказание смысл? Что ж, бихевиористским экономистам есть что сказать о нас: «Люди предсказуемо иррациональны».

Мы повторяем вещи. Я проанализировал свои последние 10 заказов из приложения для заказа еды и увидел закономерность. Вернувшись к анализу, я сузил функции до таких атрибутов, как order_day_of_week, order_hour_of_day, days_since_previous_order и всех моих отделов (замороженные, кладовая, завтрак, молочные продукты и т. Д.), Преобразованных в числовые переменные. Используя регрессор случайного леса, я смог достичь r2_score 0,93 при прогнозировании числа заказов и 0,75 при прогнозировании числа повторных заказов.

Во второй серии анализов я хочу выполнить кластеризацию заказов, чтобы найти корреляцию между различными отделами (можем ли мы ответить на такой вопрос, как «Чем больше заказов на молочные продукты, тем меньше заказов на замороженные продукты?» Или, может быть, «Чем больше заказываемый алкоголь, тем больше заказываемые напитки и закуски?» Я надеялся получить более широкие данные на уровне пользователя, но из-за анонимности эти атрибуты не были опубликованы.

Можем ли мы сегментировать рынок по типу и количеству заказываемой еды. Можем ли мы делать прогнозы и рекомендации пользователю по увеличению продаж? Есть ли закономерность и корреляция между заказами по проходу, отделу, времени суток или активности пользователей. Я постараюсь ответить на эти вопросы во второй части своего анализа.

Любые идеи или рекомендации по этому поводу, не стесняйтесь снимать в комментариях ниже!

Ваше здоровье :)