Архитектура процесса моделирования кредитного риска в Scikit-Learn и PMML
Sklearn предназначен для машинного обучения, а не для моделирования кредитных рисков. Некоторые распространенные преобразования переменных в моделях кредитного риска, встречающиеся в SAS или R, отсутствуют в Scikit-Learn.
Эта история вместе с некоторыми последующими историями, связанными внизу, будет посвящена общим преобразованиям переменных с использованием как стандартных функций конвейера sklearn, так и функций конвейера sklearn2pmml.
Зачем использовать конвейеры (PMML)?
Сначала ответим, зачем вообще использовать PMML? Из моей первой истории PMML…
Прогнозные модели обычно строятся на таких языках, как R или Python. Однако большинство веб-сайтов и серверных служб создаются с использованием других языков, таких как Java. Как преобразовать модель в Python/R на другой язык? Введите ПММЛ.
PMML расшифровывается как Язык разметки прогнозирующих моделей. Это формат файла на основе XML, который служит посредником между различными языками программирования. Модель может быть создана в Python/R, сохранена в виде XML-файла, а затем передана инженеру-программисту для производства.
Конвейеры PMML также расширяют функциональность конвейеров sklearn. Многие преобразования переменных, о которых я подробно расскажу ниже и в последующих статьях, потребуют использования функций из пакета sklearn2pmml.
Для обзора PMML и Scikit-Learn, пожалуйста, ознакомьтесь с моей предыдущей историей на Medium. Затем для более сложных преобразований предварительной обработки данных ознакомьтесь с моими ссылками ниже.
- Ограничение экстремальных значений и спецификация отсутствующих значений
- Биннинг непрерывных переменных
- Биннинг дискретных переменных и обход ловушки фиктивных переменных
- Преобразование кодов состояния в фиктивные переменные
- Обзор, а также код по объединению функций
Я надеюсь, что эти статьи помогут вам создавать модели в Scikit-Learn и с легкостью запускать их в производство.