Пример использования - проект Data Science

Примечание автора. Этот проект был разработан как часть тематического исследования, чтобы получить более широкое представление о том, как Data Science внедряется в отрасли. В 2016 году Prudential Life Insurance объявила конкурс в Kaggle, пригласив специалистов по данным для разработки модели оценки рисков. Основа этого тематического исследования основана на том же проблемном пространстве и использует данные из Kaggle и данные, полученные с помощью онлайн-исследований, для демонстрации процесса науки о данных. Ссылку на презентацию можно найти здесь.

Управляющее резюме

Страховые компании сосредотачиваются на использовании возможностей больших данных и машинного обучения для разработки продуктов, отвечающих потребностям различных клиентов и сегментов рынка. В приведенном ниже тематическом исследовании представлен синопсис того, как Prudential Financial, Inc., одна из крупнейших страховых компаний в США, может использовать надежную дорожную карту по науке о данных для социализации аналитиков в организации, одновременно решая их самое узкое место, заключающееся в создании масштабируемого риска. модель оценки для своего клиентского сегмента. В тематическом исследовании анализируются данные и реализованная бизнес-модель, размер и объем хранения и обработки данных, дается четкая краткая оценка стандартов данных и программного обеспечения, а также проверяются используемые ключевые методы анализа и статистические методы.

Описание Проекта

Клиенты, как правило, ожидают большего времени ожидания медицинских осмотров даже после предоставления адекватной и обширной информации. Первоначальное онлайн-предложение по любому страховому плану часто бывает неточным. Командам продаж и колл-центра приходится полагаться на традиционные методы, чтобы предлагать своим клиентам расценки на страхование, что отнимает много времени. Эти факторы отпугивают любого покупателя, вынуждая его искать другие альтернативы. Компания считает, что выручку в сегменте L&A можно увеличить только за счет более эффективного привлечения и удержания клиентов. Поскольку для привлечения нового клиента требуется гораздо больше усилий, чем для удержания существующих, важно определить рынки с высокими возможностями и сократить время адаптации клиента (Kaggle, 2016).

Бизнес модель

Обзор

Prudential Financial, Inc. использует рыночный сегментный подход для разработки продуктов и предложений, которые могут удовлетворить самых разных клиентов и организаций. Ценностное предложение - ключевой элемент их бизнес-модели, которая фокусируется на доступности финансовых продуктов, улучшении деловой этики, строгой этике и улучшенном имидже бренда за счет улучшения отношений с клиентами.

На рисунке 1 ниже показано, как предлагаемая цель проекта влияет на некоторые ключевые области бизнеса, такие как отношения с клиентами (через улучшенное предложение), разработку страховых продуктов (путем изучения существующего бизнеса и доли рынка), оптимизацию маркетинговых каналов и привлечение клиентов.

Вызовы

Масштабируемость модели прогнозирования по другим сегментам страхования из-за различных характеристик клиентов и обучения различных заинтересованных сторон, отделов продаж и взаимодействия с клиентами по внедрению этой модели является сложной задачей.

Обработка данных

Анализ модели данных является ключом к созданию единого окна для данных о клиентах при выявлении факторов, имеющих решающее значение для разработки модели оценки рисков (McKinsey & Company, 2017). На рисунке 2 ниже показано концептуальное представление о том, как можно интегрировать различные источники данных, структуру управления качеством данных и аналитику.

Давайте рассмотрим некоторые из ключевых компонентов модели данных ниже.

· Источники данных - внутренние и внешние, включая данные, собранные через веб-сайт, информацию о продукте, финансовые показатели, данные об активности вызовов (IVR-звонки от клиента и торговых представителей), данные о претензиях от сторонних поставщиков, демографические данные информация о рынке и внешние обзоры

· Объем данных - 20 миллионов клиентов, облачное хранилище объемом 2,5 петабайта для внутренних данных

· Скорость передачи данных - данные о звонках и веб-сайте для сегмента L&A обновляются ежедневно, информация о финансах и продуктах обновляется ежемесячно, внешние данные закупаются ежеквартально.

· Разнообразие данных - демографические данные клиентов, их состояние здоровья, занятость и семейный анамнез. Данные также включают продажи, сделанные звонки, рекламные акции и события.

· Достоверность данных - разные стандарты в разных местах; DQM используется для обеспечения качества данных

· Инструмент ETL (Extract Load Transform) - Teradata и Teradata SQL для веб-приложений страхования и данных журнала вызовов; Данные о продуктах и ​​финансах обычно хранятся и распространяются через Excel и вводятся непосредственно в хранилище информационных ссылок (наборы данных SAS). Внешние данные, полученные от сторонних поставщиков, например данные о заявках, хранятся в виде наборов данных SAS. Организация планирует перейти на Apache Spark для данных, генерируемых через Интернет.

· Инструмент аналитики - SAS и Python. SAS используется в целях безопасности данных; Медицинская информация очень конфиденциальна, поэтому компания склоняется к SAS. Python (Jupyter Notebook) используется для построения моделей.

· Инструмент бизнес-аналитики - QlikSense и Power BI

· Обработка - обработка аналитики, обработка объемов данных и оптимизация запросов.

· Возможности - модели для поддержки последующей оценки рисков и исследований сегментации клиентов.

· Безопасность / конфиденциальность. Медицинские записи и данные пациентов требуют конфиденциальности и конфиденциальности. Закон о переносимости и подотчетности в медицинском страховании (HIPAA) регулирует защиту данных о здоровье в США.

· Жизненный цикл - требуется полное управление данными

Ресурсы

На рисунке 3 ниже показано, как в Prudential Financial, Inc. можно использовать различные инструменты и технологии.

Особенности рекомендуемых инструментов:

1. Teradata - система управления реляционными базами данных, в которой данные хранятся в структурированной форме, что упрощает выполнение запросов конечным пользователем (Teradata, 2014).

2. Apache Spark (рекомендуется) - включает возможности уменьшения карты. Дизайн без схемы имеет распределенный характер и позволяет лучше получать данные о потоках кликов. Стоимость хранилища намного ниже и позволяет использовать облачный или локальный процессор обработки.

3. SAS - обеспечивает лучшую безопасность данных и предоставляет аналитические возможности для прогнозной аналитики. Большинство фармацевтических и банковских компаний предпочитают SAS любой платформе с открытым исходным кодом.

4. Python - универсальный и простой в использовании язык с лучшими возможностями машинного обучения и прогнозной аналитики по сравнению с SAS. Предпочтительно для разработки моделей из-за наличия нескольких библиотек с открытым исходным кодом.

5. QlikSense / Power BI - QlikSense - это инструмент бизнес-аналитики с самообслуживанием, который использует оперативную память для ускорения работы информационной панели. Позволяет создавать сценарии для обработки и преобразования данных с помощью QVD (Qlik View Datasets), что позволяет быстрее загружать огромные наборы данных. Базовая версия Power BI поставляется в комплекте с пакетом Microsoft, приобретенным организацией, и используется только для внутренней отчетности.

Анализ данных

Исследовательский анализ данных

Анализ данных разделен на два сегмента. Первый сегмент, показанный на Рисунке 4 ниже, включает создание панели мониторинга 360 для бизнес-пользователей для доступа к текущему рыночному сценарию, тогда как следующий сегмент включает построение модели оценки рисков. Все ключевые показатели эффективности, включая клиентскую базу, долю рынка, доступные продукты, выручку и рост, отображаются вместе с относительными показателями эффективности по географическому расположению и продуктам на странице «Краткое содержание». Исследовательский анализ данных с помощью QlikSense позволяет выявить области бизнеса, требующие внимания, в то же время включает предварительную работу, необходимую для разработки модели.

Быстрые выводы из анализа данных выше:

1. Prudential Financial, Inc. имеет клиентскую базу в 22 млн, но занимает лишь 6% доли рынка в США.

2. Компания лучше представлена ​​в западной части страны, в основном в штатах Калифорния, Невада, Нью-Мексико и Колорадо.

3. Продукты D3 и D4 - самые эффективные продукты в портфеле L&A.

4. У компании есть клиенты из разных возрастных групп, при этом наблюдается положительная корреляция между возрастом и уровнем риска (проверка корреляции с использованием коэффициента корреляции Пирсона).

Модель оценки риска

Концептуальная диаграмма

Перед разработкой модели разрабатывается концептуальная диаграмма высокого уровня для определения факторов, которые могут влиять на уровни риска. Концептуальная схема показана на Рисунке 5 ниже.

Разработка модели

Prudential Financial, Inc. классифицирует риски по 8 основным категориям от 1 до 8, 1 - это страховщик с наименьшим риском, а 8 - наивысший. Уровень риска является многоклассовым атрибутом, поэтому для идентификации модели с наивысшим показателем точности используется комбинация дерева решений и методов ансамбля. Ансамбль означает объединение результатов из группы моделей для достижения большей точности и стабильности. Было опробовано и протестировано несколько алгоритмов, чтобы найти баланс между систематической ошибкой и дисперсией. Обработка данных, обработка пропущенных значений, обработка выбросов выполнялись до разработки модели. Центральная тенденция и асимметрия вычисляются для всех атрибутов, а отсутствующие значения заменяются нулями или режимом. Коробчатая диаграмма и комбинация межквартильного размаха используются для выявления выбросов. Следующие алгоритмы (Analytics Vidhya, 2016) разрабатываются перед тем, как рекомендовать модель для развертывания на сервере, как показано на рисунке 6 ниже.

1. Дерево решений - контролируемый алгоритм обучения для задач классификации, полезный для наборов данных с большим количеством категориальных переменных. Хорошо подходит для решения проблем с несколькими классами, но часто приводит к переобучению модели без обрезки. Индекс Джини и энтропия используются в качестве критерия получения информации для разделения.

2. Случайный лес - универсальный метод машинного обучения, который работает как с задачами регрессии, так и с классификацией. Самостоятельная выборка данных и подмножество функций (независимых переменных) позволяет вырастить несколько деревьев в лесу. Данные классифицируются по ярлыкам на основе максимального количества голосов. Случайный лес хорошо работает с большим набором данных с более высокой размерностью и объединяет результаты нескольких классификаторов для повышения стабильности модели.

3. Бэггинг - похож на случайный лес, за исключением того, что в нем используются все функции для построения дерева.

4. Boosting - семейство алгоритмов, которые объединяют слабых учащихся для создания сильного учащегося. Повышение ADA последовательно обучает различные предикторы, чтобы улучшить выходные данные предыдущего предиктора. Повышение ADA работает, изменяя выборочные веса неверного прогноза для каждой итерации, тогда как Gradient Boost работает, идентифицируя большие остатки, вычисленные на предыдущей итерации.

5. CV поиска по сетке - метод точной настройки выходных данных модели путем проверки нескольких диапазонов параметров модели. Использует метод K-кратной перекрестной проверки для вывода лучших параметров для алгоритма на основе результатов K-кратных проверок. Время вычисления намного выше, если используются несколько диапазонов параметров.

Выход модели

На рисунке 7 ниже показаны парный график, оценки точности, отзыва, F1 и ROC модели, разработанной с использованием техники упаковки в мешки. Макро-средние оценки учитываются при сравнении параметров модели из разных алгоритмов. Самая высокая точность упаковки составила 0,56, а показатели отзыва и точности - 0,42 и 0,51. Результаты модели можно настроить с помощью перекрестной проверки k-кратной проверки или выборки начальной загрузки на следующей фазе обновления.

Заключение

Prudential Financial, Inc. использует возможности данных для принятия обоснованных решений. Пространство науки о данных в настоящее время является рекой разумной отдачи, поскольку наука о поведении и дизайн-мышление открывают способы ускоренного решения проблем с помощью целостной экосистемы людей, процессов и технологических платформ. Модель оценки рисков и панель мониторинга 360 являются первыми в своем роде, которые потенциально могут открыть ценность в 10 миллионов долларов с 1/10 стоимости консультантов по управлению в ближайшие дни.

Ссылка

1. Центр финансовых услуг Делойт. (2019). Перспективы страхования на 2020 год [Белая книга]. Получено с https://www2.deloitte.com/us/en/insights/industry/financial-services/financial-services-industry-outlooks/insurance-industry-outlook.html.

2. Kaggle. (2016). Оценка пруденциального страхования жизни. Получено с https://www.kaggle.com/c/prudential-life-insurance-assessment/overview

3. Prudential Financial, Inc. (2020). Годовой отчет за 2019 г.. Получено с сайта http://s22.q4cdn.com/600663696/files/doc_financials/voting_results/Prudential-AR2019.pdf

4. Терадата (2014). БОЛЬШИЕ ДАННЫЕ: УНИФИЦИРОВАННАЯ АРХИТЕКТУРА ДАННЫХ TM TERADATA В ДЕЙСТВИИ БОЛЬШИЕ ДАННЫЕ: УНИФИЦИРОВАННАЯ АРХИТЕКТУРА ДАННЫХ TERADATA TM В ДЕЙСТВИИ. [онлайн] Доступно по адресу: http://assets.teradata.com/resourceCenter/downloads/WhitePapers/EB7805.pdf

5. McKinsey & Company (2017). Использование потенциала данных в страховании. [онлайн] McKinsey & Company. Доступно по адресу: https://www.mckinsey.com/industries/financial-services/our-insights/harnessing-the-potential-of-data-in-insurance.

6. Аналитика Видхья (2016). Алгоритмы на основе деревьев: полное руководство с нуля (в R & Python). [онлайн] Аналитика Видхья. Доступно по адресу: https://www.analyticsvidhya.com/blog/2016/04/tree-based-algorithms-complete-tutorial-scratch-in-python/.