Обзор внутреннего рынка Кореи с данными кредитной карты BC

Введение

Корея является одной из крупнейших стран в экономике. По данным Всемирного банка, ВВП Кореи в 2018 году составил 1,619 трлн долларов США. Это примерно говорит о том, что Корея занимает 13-е место по величине экономики в мире.

Я разместил эту статью, чтобы предоставить полезную информацию тем, кто рассматривает возможность открытия бизнеса на внутреннем рынке Кореи. Используя данные кредитных карт с января 2019 года по март 2020 года, я попытался ответить на 3 бизнес-вопроса и спрогнозировать объем покупок по отраслевым доменам и регионам.

Деловые вопросы и понимание данных

Вот вопросы, на которые я попытался ответить с помощью набора данных кредитной карты:

  1. Каков объем покупок в течение семейного жизненного цикла клиентов (FLC) в указанный период (2019.01.2020.03.)?
  2. Каков объем закупок по отраслям промышленности?
  3. Каков средний объем покупок в течение месяца и увеличивается ли объем покупок в пик сезона?

Чтобы ответить на эти вопросы, необходимо понять информацию, содержащуюся в наборе данных. Набор данных состоял из 12 столбцов, связанных с информацией о платеже (местоположение платежа, секторы промышленности, в которых произошел платеж, сумма платежа, год и месяц совершения платежа) и информацией о клиенте (адрес проживания клиента, и демографическая информация, такая как возраст, пол и FLC). Агрегируя или комбинируя значения в данных, можно ответить на вышеуказанные вопросы. Кроме того, можно создать модель для прогнозирования объема закупок.

Исследование и визуализация данных

Прежде чем углубиться в анализ, давайте сначала изучим распределение данных. Некоторые данные написаны на корейском языке, но ничего страшного, потому что я буду интерпретировать их на английском языке.

Верхняя левая гистограмма — это количество платежей по регионам Кореи. Этими тремя ведущими регионами являются Сеул (столица Кореи), провинция Кёнки (которая похожа на штаты в США) и Пусан (второй по величине город в Корее).

Верхняя правая гистограмма — это количество платежей по отраслям промышленности. Эти три основных сектора с частыми выплатами — это рестораны корейской кухни, круглосуточные магазины и продуктовые магазины.

На гистограмме внизу слева показано количество платежей клиентов разных возрастов. Эти 3 группы с частыми выплатами — это 40-е, 30-е и 20-е годы.

На гистограмме справа внизу показано количество платежей клиентов FLC. Первые 3 группы FLC с частыми выплатами - это 2, 1 и 4, которые представляют собой домохозяйства с младенцем, домохозяйства, состоящие из одного человека, и домохозяйства с детьми старше 18 лет.

Ответы на деловые вопросы

  • Каков объем покупок в течение семейного жизненного цикла клиентов (FLC) в указанный период (2019.01.2020.03.)?

Объем покупок по FLC клиентов показан выше. Ось X представляет FLC клиентов, а ось Y представляет логарифмический объем покупки с основанием 10. Единицей измерения является корейская валюта, вон.

Топ-3 домохозяйства, которые зафиксировали самый высокий объем покупок в данный период, — это 4, 2 и 3, которые зафиксировали около 17,86, 12,62 и 11,54 трлн вон.

Каждый номер FLC представляет домохозяйства с детьми старше 18 лет, домохозяйства с младенцами и домохозяйства с детьми в возрасте от 14 до 18 лет.

Дом на одного человека оказался самым низким с объемом покупок 7,37 трлн вон, хотя они заняли второе место по количеству платежей. Можно сделать вывод, что домохозяйства, состоящие из одного человека, платят чаще, чем другие, но потребляют меньше, чем другие.

  • Каков объем закупок по отраслям промышленности?

На приведенной выше диаграмме показан объем покупок по отраслям промышленности. ось x представляет область отраслей, а ось y представляет логарифмический объем покупки с основанием 10. Единица измерения такая же, как на приведенной выше диаграмме, вон.

Топ-3 сектора, в которых зафиксирован самый высокий объем покупок, — это рестораны корейской кухни, автозаправочные станции и супермаркеты (например, Walmart в США). В каждом секторе было зарегистрировано 13,74, 7,71 и 7,33 трлн вон.

Продуктовые магазины и магазины шаговой доступности, занимавшие высокие места по частоте платежей, заняли 4-е и 5-е места по объему покупок.

  • Каков средний объем покупок в течение месяца и увеличивается ли объем покупок в пик сезона?

Удивительно, но средний объем покупок в течение месяца не сильно отличается друг от друга. Заманчиво предположить, что в пиковый сезон (август и январь) обычно фиксируется больший объем покупок. Однако в указанный период (01.2019 ~ 03.2020) внутренний рынок Кореи не продемонстрировал заметной разницы в объеме покупок в пиковый сезон по сравнению с непиковым сезоном.

Моделирование и оценка данных

Если вы не являетесь технически грамотным читателем, вы можете перестать читать эту статью с этого момента. Однако, если вы немного разбираетесь в машинном обучении или хотите взглянуть на машинное обучение, вы можете продолжить чтение. Поскольку эта статья написана для нетехнических читателей или для тех, кто плохо знаком с ML, техническая часть будет пропущена. Но, если вы хотите погрузиться в техническую часть, вы можете получить доступ к моему github. Ссылка написана ниже.
https://github.com/SeongbinLim94/credit-card-purchase-volume-prediction

Для прогнозирования объема закупок по регионам и отраслевым областям в качестве оценок выбрана регрессия случайного леса. Оценщик относительно легко интерпретирует обученную модель и имеет преимущество в легком определении важности функций.

Обученная модель работала довольно хорошо, с округленной среднеквадратичной ошибкой 0,18, что является очень замечательным результатом. Это означает, что предполагаемый объем покупки почти совпадает с реальным объемом покупки. (Опять же, объем покупок преобразуется в логарифмический объем покупок с основанием 10.)

Если вы видите график выше, количество клиентов является наиболее важной характеристикой для прогнозирования объема покупок. Кроме того, отраслевая сфера и частота платежей также оказались важными факторами для прогнозирования.

Вывод

В этой статье я попытался ответить на три вопроса, чтобы понять внутренний рынок Кореи, используя данные, предоставленные компанией-эмитентом кредитных карт. Результаты показали, что наибольший объем покупок тратили домохозяйства с детьми старше 18 лет. А сектором промышленности, в котором был зарегистрирован наибольший объем покупок, был ресторан корейской кухни. Удивительно, но объем покупок в течение месяца не показывает заметной разницы между пиковым сезоном и непиковым сезоном.

Чтобы сделать это исследование понятным для читателей с разным опытом, я пропустил техническую часть исследования. Если вы являетесь экспертом в области машинного обучения, вы можете зайти в мой репозиторий github для загрузки данных. Попробуйте создать более сложные модели для прогнозирования объема покупок, исходя из собственного понимания!