«Kaggle взаимодействует с бизнес-процессом»

11 июля 2018 года в Cerved компания Data Science Milan организовала мероприятие на тему Kaggle. Это платформа, хорошо известная сообществу специалистов по данным, где вы можете найти набор данных, изучить науку о данных с помощью упражнений, соревноваться с другими учеными данных и не только, если вы выиграете, вы можете получить либо деньги, либо работу !!!

«Kaggle — современный ML», Альберто Данезе, Cerved

Что такое Kaggle?

Это крупнейшая в мире платформа для соревнований по прогнозному моделированию, созданная в 2010 году и купленная Google в 2017 году.

На этой платформе предприятия ищут прогностическое решение для некоторых своих проблем с помощью ответов специалистов по данным, которые соревнуются со всем миром, предлагая наиболее эффективные алгоритмы.

Эта платформа позволяет компаниям нанимать лучших ученых, а исследователи могут тестировать новые технологии: Keras и XGboost были протестированы в Kaggle до их успеха, и то же самое происходит с LightGBM.

Как это работает?

Компании делают реальные наборы данных доступными на платформе с анонимными функциями и разбивают их на наборы поездов и наборы тестов. Первый с исходом, а второй без него, потому что он используется для оценки прогнозных моделей для 20%-30% в общедоступной таблице лидеров, а остальные - в частной таблице лидеров.

Вы можете реализовать свои прогностические модели с помощью языков программирования R, Python, Julia и представить решение в файле csv; также есть доступность ядер, используемых для запуска вашего кода и выпуска его для всех.

Работа kaggler больше сосредоточена на машинном обучении, в то время как специалист по данным работает в широком процессе, который включает в себя машинное обучение, но начинается с определения проблемы до идентификации данных, алгоритмов, разработки решения с конвейерами и развертывания до рассказывание историй.

Стоит ли?

По мнению Альберто Данезе, Kaggle стоит попробовать, потому что это очень хорошая платформа для обработки данных, где вы можете изучать машинное обучение, пробовать решения и понимать, что работает, а что нет, смотреть на доступный код и т. д. Единственный недостаток — это требует времени, потому что вы нужно конкурировать с kagglers со всего мира.

Недавно были опубликованы победные решения соревнований Kaggle, репозиторий о прошлых задачах.

Посмотрите на видео.

«Кредитный скоринг — машинное обучение в регулируемой среде», Джованни Тессиоре, Cerved

Во втором докладе был показан бизнес-кейс о том, как машинное обучение применяется в реальном мире: кредитный скоринг рейтингового агентства Cerved.

Кредитный скоринг — это статистическая модель, которая объединяет несколько финансовых характеристик для оценки риска дефолта предприятия с помощью единого балла для оценки кредитоспособности клиента.

Он работает в регулируемой среде: Базель II/III, который представляет собой согласованный на международном уровне набор мер, разработанный Базельским комитетом по банковскому надзору в отношении требований к капиталу банков, в соответствии с которыми банки должны выделять пропорциональные доли капитала в зависимости от риска. предполагается и оценивается с помощью рейтингового инструмента.

Базель II/III построен на «трех столпах»: минимальные требования к капиталу, надзорный контроль и рыночная дисциплина.

В опоре I есть 3 подхода к оценке кредитного риска: стандартный, базовый и продвинутый.

При первом подходе банки не разрабатывают какую-либо внутреннюю модель и для минимальных требований к капиталу банки используют рейтинг от внешних агентств, вместо этого при третьем подходе банки разрабатывают внутреннюю модель для оценки ожидаемых убытков (EL).

EL = PD x EAD x LGD

Ожидаемый убыток – это сумма, которая, как ожидается, будет потеряна из-за подверженности кредитному риску в течение года.

PD: Вероятность дефолта обеспечивает оценку вероятности того, что контрагент не сможет погасить свои долговые обязательства в течение определенного периода времени.

EAD: риск при дефолте — это непогашенная ожидаемая сумма после дефолта контрагента с учетом: любого снижения кредитного риска, использованных остатков, любых неиспользованных сумм обязательств и условных рисков.

LGD: убыток при дефолте — это предполагаемый убыток от риска после дефолта контрагента. Это доля актива, которая теряется в случае дефолта заемщика. Ставка возмещения определяется как (1-LGD), доля актива, которая восстанавливается в случае дефолта заемщика.

В расширенной модели требуется непредвиденный убыток, рассчитанный по формулам, предоставленным регулирующим органом.

Результатом модели является основная шкала классов, связанная с вероятностью оценки по умолчанию.

Как используется в соревнованиях Kaggle, цель состоит в том, чтобы использовать модель машинного обучения для расчета вероятности невыполнения обязательств с использованием точности / AUC в качестве метрики оценки, но в то время как в соревнованиях Kaggle вам необходимо оптимизировать точность, в реальном мире вы должны уважать некоторые правила, определенные Регулятором: калиброванные ПД в соответствующем диапазоне, надежность модели, использование одних и тех же параметров для оценки контрагентов, прозрачная модель, хорошее качество используемых данных и понятность.

В регулируемом секторе неконтролируемое машинное обучение может использоваться, чтобы решить, сколько моделей вы можете построить для каждой цели рынка с помощью кластерного анализа, корреляционного анализа, анализа основных компонентов.

Выбор функций используется для оценки переменных для настройки модели, а контролируемое машинное обучение можно использовать в качестве эталона для улучшения работы модели.

Как традиционные подходы, так и современные подходы могут использоваться для определения эталонной шкалы ВД и калибровки с использованием также эконометрических подходов.

Посмотрите на видео.

Автор Клаудио Г. Джанкатерино

Первоначально опубликовано на datasciencemilan.org 18 июля 2018 г.