Выводы исследования Всемирного банка 2017 года с использованием контролируемого обучения (часть первая)

Недавно правительство Марокко отправляло ежемесячные пособия гражданам, пострадавшим от COVID-19. Массовая операция координировалась с помощью мобильных телефонов: люди вводили свою информацию и тип помощи, на которую они имели право, а затем они получали PIN-код, который позже использовали для снятия денег в банкомате.

Мой дедушка, который был бенефициаром программы, взволнованно позвонил мне после того, как забрал свои деньги в банке. Он никогда раньше не пользовался банкоматом и был поражен тем, как автомат выдавал ему наличные без необходимости общаться с человеком.

Я был в недоумении: почему мой 80-летний дедушка, чье волнение по поводу Интернета, смартфонов и WhatsApp давно утихло, внезапно взволновал банкомат? По правде говоря, мне никогда не приходило в голову, что у моего дедушки никогда не было банковского счета, дебетовой карты, ссуды или каких-либо контактов с банковским учреждением!

Поэтому я попытался понять, кто такие миллионы марокканцев, как мой дед, у которых никогда не было банковского продукта. Я знал, что официальная статистика обслуживаемого населения колеблется в районе 56% по состоянию на 2017 год (Источник: Банк аль Магриб), но я хотел понять микроэкономические характеристики населения, не охваченного банковскими услугами: кто они?

К счастью, Всемирный банк провел подробное Глобальное исследование финансовой доступности в 2017 году и опубликовал данные (причем бесплатно!). В опросе участвовало около 5100 марокканцев, и был задан широкий круг вопросов об их демографии и использовании банковских продуктов. Приведенный ниже анализ основан на этих данных. У меня есть некоторые сомнения относительно качества данных и их выводов, которые я представлю на более позднем этапе этого сообщения в блоге.

1. Описательная статистика

Из ~ 5100 человек, включенных в исследование в Марокко, только 28% сообщили, что в 2017 году у них был банковский продукт. В то время как официальная статистика населения в банках в том году была близка к 56%, эта выборка - предположительно репрезентативная для населения Марокко - предполагает гораздо более низкие статистические данные. Подробнее о моих сомнениях по поводу опроса в следующем абзаце. А пока давайте примем методологии выборки и сбора данных такими, какие они есть.

Доля банковского населения во многом зависит от демографических характеристик выборочного населения. Ниже я показываю набор графиков, описывающих эти характеристики.

Первое существенное отличие - на гендерном уровне. Как показано на графике ниже, у мужчин более чем в 2,5 раза больше шансов получить банковский продукт, чем у женщин. Действительно, только 17% опрошенных женщин имели банковский продукт по сравнению с 45% мужчин.

Затем, когда мы группируем респондентов опроса по возрастным группам с одинаковыми ячейками (каждая ячейка на этом графике содержит одинаковое количество людей), мы видим лишь небольшую разницу между возрастными группами, за исключением пожилых людей. 15–25. Это говорит о том, что другие факторы, помимо возраста, могут быть более важными.

У тех, кто работает, в 2,5 раза больше вероятность получения банковского продукта, чем у тех, кто не работает (будь то безработные, пенсионеры или школьники).

Когда мы смотрим на экономический статус респондентов, мы заключаем, что те, кто находится в верхних 20% доходов, примерно в 3,5 раза более вероятны, чем те, кто находится в нижних 20% доходов Иметь банковский продукт. Опять же, мне кажется странным, что только 50% из тех, кто находится в квинтиле с максимальным доходом, имеют банковский счет, но пока мы будем использовать эти данные как есть.

Наконец, наиболее разительное различие объясняется образованием: у тех, кто имеет высшее образование или выше, почти в 4 раза больше, чем у тех, кто имеет только начальное образование, иметь банк. учетная запись. Как вы, наверное, догадались, в выборке непропорционально много респондентов с только начальным образованием.

Конечно, в реальной жизни подобные демографические характеристики существуют не в вакууме. На самом деле, они взаимодействуют друг с другом: женщины из нижних 20% доходов и вне рабочей силы отличаются от женщин из верхних 40% доходов и среди рабочей силы. Следующий набор диаграмм расширяет вышеперечисленное, чтобы показать, чтобы попытаться понять, является ли определенный набор характеристик более ярким, чем другой, при объяснении доступа к банковским продуктам в Марокко.

График ниже показывает нам, что «банковский разрыв» между полами в Марокко становится тем меньше, чем выше уровень образования: от ~ 3x на уровне начального образования до ~ 1,5x на уровне высшего образования.

Интересно, что приведенный ниже график показывает, что с высоким уровнем образования даже те, кто находится в квинтиле с самым низким доходом, имеют банковский продукт, а именно: 67% тех, кто находится в нижних 20% доходов, сообщают о наличии продукта. Это говорит о том, что образование может быть более важно, чем уровень дохода при определении доступа к банковским продуктам.

Чтобы понять относительную важность каждой из этих характеристик для определения того, у кого, вероятно, будет банковский счет, я исследую методы машинного обучения в следующих разделах.

(Случайная мысль: если вы внимательно это читаете, сейчас хорошее время, чтобы сделать перерыв и послушать эту песню Хеба Халеда)

2. У кого, вероятно, будет банковский счет в Марокко? Подход машинного обучения

Я использую модель логистической регрессии и модель дерева решений, чтобы понять относительную важность каждой из характеристик, представленных выше.

А. Логистическая регрессия

Логистическая регрессия - это метод классификации, который предсказывает, произойдет ли результат (например, будет ли у вас банковский продукт?) С учетом набора предикторов (например, демографических характеристик). Подробнее о методологии читайте в статье На пути к науке о данных.

а. Подготовка данных и выбор предикторов

Предпосылка контролируемого обучения (из которого логистическая регрессия является лишь одним из методов) состоит в построении модели, которая может научиться предсказывать данный результат с максимальной точностью.

Для этого нам понадобится набор данных для обучения (который модель будет использовать для обучения) и набор данных для тестирования (который модель будет использовать для применения того, что она только что изучила). . Таким образом, я разделил свои данные на две случайные выборки: обучающую выборку (75% из ~ 5100 респондентов) и тестовую выборку (оставшиеся 25% из ~ 5100 респондентов).

Следующим шагом был выбор набора предикторов, которые войдут в модель. Описательная статистика в первом разделе дала мне представление о предикторах, которые, вероятно, позволят построить хорошую модель. После некоторой настройки и опробования различных комбинаций предикторов я остановился на следующих предикторах:

Прогнозирование has_banking_product в зависимости от пола + уровня образования + взаимодействия пола и образования + занятости_статуса + дохода_квинтиля + возраста

б. Запуск и оценка модели

Я построил свою модель, используя стандартную функцию glm () для логистической регрессии в R, и я использую ее для создания «прогнозируемого» столбца в моем тестовом наборе данных. Есть много способов оценить, насколько хороша модель:

(i) Точность - как часто «прогнозируемый» столбец соответствует «фактическому» столбцу в моем наборе данных тестирования: 78% в моей модели.

(ii) Матрица неточностей - это таблица, которая показывает разбивку прогнозируемого результата и фактического результата. Это простой способ увидеть, что мы предсказали как истина, где на самом деле это неверно, и что мы предсказали как ложь, где на самом деле это правда.

Из этой матрицы недоразумений видно, что в 15% случаев моя модель предсказывала, что у человека будет банковский продукт, тогда как на самом деле он его не имел. Аналогичным образом, в 7% случаев модель предсказывала у человека не было банковского продукта, а на самом деле он у него был. Остальное время (78%) - это точность, упомянутая выше.

Подробнее о матрицах путаницы.

Итак, как мы все это интерпретируем ?! Что ж, оба приведенных выше показателя предполагают, что модель не идеальна и в 22% случаев не дает прогнозов в данных тестирования. Это может быть связано с тем, что в данных отсутствуют важные характеристики, которые также влияют на то, есть ли у человека банковский продукт. Этими характеристиками могут быть другие демографические данные, не включенные в опрос, например, проживает ли человек в городской или сельской местности, тип работы, есть ли у него иждивенцы, уровень его дохода и т. Д.

c. Интерпретация модели

Если мы примем указанную выше точность 78% как «достаточно хорошую», теперь мы можем взглянуть на результаты модели, чтобы попытаться понять относительную важность демографических характеристик в влиянии на то, будет ли у человека банковский продукт.

График выше говорит нам о том, что интуитивно подсказала нам описательная статистика: наиболее важным показателем наличия банковского продукта является наличие у кого-то высшего образования, а затем его принадлежность к верхние 20% дохода, затем указывается, работают ли они.

Как более подробно интерпретировать этот график? Точки на графике - это оценки вероятности, предсказанные моделью, столбцы - стандартные ошибки (с указанием возможных минимальных и максимальных значений каждой оценки), а звездочка указывает, является ли оценка статистически значимой (не случайно). Один из способов, который помогал мне интерпретировать оценки регрессии в прошлом, - это думать о двух одинаковых людях. В этом примере представьте, что мы только что клонировали двух человек. Однако у одного из них есть высшее образование, а у другого нет; все остальные характеристики такие же. Приведенная выше модель предполагает, что у человека с высшим образованием вероятность получения банковского продукта составляет 89%, чем у его клона. Что очень важно в интерпретации регрессии, так это то, чтобы все другие характеристики оставались постоянными при рассмотрении влияния одной переменной.

Б. Модель дерева решений

Деревья решений - это контролируемый алгоритм обучения, который классифицирует данные по результатам (истинным или ложным) на основе набора предикторов. Деревья решений непрерывно разделяют данные на двоичные подмножества (например, мужчина или женщина, работает или нет, возраст: выше 45 или ниже 45) до тех пор, пока дальнейшее разделение не станет возможным. Подробнее о них здесь.

а. Выбор предикторов

Как и в предыдущем случае, я выбираю следующие предикторы и запускаю для них модель дерева решений (для простоты я удалил непрерывную возрастную переменную и взаимодействие между образованием и полом).

Прогноз has_banking_product в зависимости от пола + образования_уровня занятости_статуса + дохода_квинтиль

б. Запуск и оценка модели

Я построил свою модель с помощью функции rpart () в R и использую ее для создания «прогнозируемого» столбца в моем тестовом наборе данных. Давайте оценим, насколько хороша модель, посмотрев на следующие показатели:

(i) Точность: Также 78%.

(ii) Матрица неточностей:

По сравнению с моделью логистической регрессии вы можете видеть, что пропорции для каждого сегмента очень похожи, что позволяет предположить, что две модели выполнили аналогичную работу, предсказывая результат.

c. Интерпретация модели

Визуальное представление модели дерева решений ... сюрприз ... ДЕРЕВО!

Это большое дерево! Деревья нелегко интерпретировать, но мы можем попытаться разобраться в этом. Давайте посмотрим на конечные точки (здесь они окрашены в красный и зеленый цвета и обычно называются листьями) - внутри них есть три числа:

  • Независимо от того, будет ли результат 1 (есть банковский продукт) или 0 (нет банковского продукта). Результаты 1 - зеленые, результаты 0 - красные.
  • Вероятность того, что произойдет вышеуказанный исход. Например, на крайнем левом листе номер 1 этот показатель равен 0,11.
  • Процент выборки, отнесенной к этому листу. Опять же, если вы посмотрите на лист номер 1, этот показатель составляет 39% (это означает, что из 5100 респондентов модель предсказывает, что около 1989 будут принадлежать листу номер 1).

Чтобы определить, какие наборы характеристик имеют наибольшее влияние на то, есть ли у кого-то банковский продукт, давайте посмотрим на листья с наибольшей вероятностью достижения результата. На приведенном выше графике давайте посмотрим на лист 16, вероятность которого равна 0,84:

  • На листе 16 давайте посмотрим, как мы перешли от вершины дерева к листу, глядя на путь, пройденный деревом. Дерево сначала разбивается на статус занятости (в рабочей силе справа, внешняя рабочая сила слева), а затем на уровень образования (высшее справа, среднее слева) и снова делится на уровень дохода (20 самых богатых % справа, остальные слева). Это говорит нам о том, что у вас 84% -ный шанс иметь банковский счет, вы должны работать, иметь высшее образование и иметь самый богатый 20-процентный уровень дохода.

Хотя трудно просмотреть каждый лист, чтобы попытаться понять, как мы до него дошли, более простой способ прочитать деревья решений - это посмотреть на несколько первых разбиений. Обычно их можно интерпретировать как наиболее важные предикторы. В этом случае мы видим, что статус занятости, пол и уровень образования являются самыми сильными предикторами. Это также согласуется с результатами регрессионной модели.

(Случайная мысль: может, сейчас самое время послушать эту песню, которая мне очень нравится)

3. Заключение и примечание об ограничениях.

Описательные и прогнозные методологии, изложенные в этом посте, указывают на то, что определенные демографические характеристики имеют большее значение, чем другие, при определении того, будет ли марокканец владеть банковским продуктом. А именно это статус занятости, уровень дохода и уровень образования (в частности, наличие высшего образования). Прогностический анализ даже предполагает, что сам по себе гендер может не иметь большого эффекта, о котором мы изначально думали, глядя на распределение результатов по полу. На самом деле, больше тот факт, что марокканские женщины реже, чем мужчины, имеют высшее образование, находятся в верхнем квинтиле дохода или работают, влияет на их способности владеть банковским продуктом.

Представленные выше модели и их выводы имеют ограничения, заключающиеся в том, что они обладают хорошей, но не большой точностью (обе около 78%). Нам нужно будет включить больше переменных или точно настроить существующие, чтобы достичь более высокой предсказательной силы, что, в свою очередь, может помочь нам лучше объяснить ситуацию.

Наконец, я хотел включить примечание о данных Всемирного банка, на которых основан этот анализ. В частности, я хотел убедиться, что набор данных действительно репрезентативен для населения. Ниже я сравниваю пропорции в наборе данных и опубликованные на макроуровне (Источник: Макроданные Всемирного банка):

  • Доля женщин в наборе данных (59%) по сравнению с общей популяцией (50%)
  • Доля обладателей высшего образования в наборе данных (7%) по сравнению с общей численностью населения (35%)
  • Доля сотрудников в наборе данных (39%) по сравнению с общей численностью населения (48%)

Если мы считаем, что набор данных несколько искажен и не отражает реальности населения Марокко, то, к сожалению, результаты не могут быть обобщены на все население. Эта ошибка выборки может объяснить, почему в наборе данных указано, что только 28% марокканцев имеют банковский счет, в то время как официальная статистика Центрального банка оценивает это число в 56% в 2017 году. Я мог что-то пропустить в своем анализ, но в официальном отчете Всемирного банка также указаны те же цифры, которые я сообщил здесь. Если вы эксперт по статистике и читаете это, и думаете, что я пропустил что-то важное, пожалуйста, свяжитесь с нами :)

4. Заключительные мысли

Теперь, когда я изучил, что делает марокканца более склонным к владению банковским продуктом, теперь я понимаю, почему мой дед был так взволнован тем, как банкомат вручил ему его стимулирующие деньги на COVID19.

Затем я надеюсь поближе взглянуть на эту «не охваченную банковскими услугами» группу населения и попытаться понять ее лучше: можем ли мы использовать методы обучения без учителя (например, кластеризацию) для классификации населения по характеристикам, выходящим за рамки демографии? Следите за моим следующим постом :)

Как обычно, если вы дочитали до этого места: Шукран, Спасибо, Грасиас, Мерси. Если вы марокканец, дайте мне знать, стоит ли это переводить.

PS. Прочтите часть вторую здесь.