Архитектура процесса моделирования кредитного риска в Scikit-Learn и PMML

Sklearn предназначен для машинного обучения, а не для моделирования кредитных рисков. Некоторые распространенные преобразования переменных в моделях кредитного риска, встречающиеся в SAS или R, отсутствуют в Scikit-Learn.

Эта история вместе с некоторыми последующими историями, связанными внизу, будет посвящена общим преобразованиям переменных с использованием как стандартных функций конвейера sklearn, так и функций конвейера sklearn2pmml.

Зачем использовать конвейеры (PMML)?

Сначала ответим, зачем вообще использовать PMML? Из моей первой истории PMML

Прогнозные модели обычно строятся на таких языках, как R или Python. Однако большинство веб-сайтов и серверных служб создаются с использованием других языков, таких как Java. Как преобразовать модель в Python/R на другой язык? Введите ПММЛ.

PMML расшифровывается как Язык разметки прогнозирующих моделей. Это формат файла на основе XML, который служит посредником между различными языками программирования. Модель может быть создана в Python/R, сохранена в виде XML-файла, а затем передана инженеру-программисту для производства.

Конвейеры PMML также расширяют функциональность конвейеров sklearn. Многие преобразования переменных, о которых я подробно расскажу ниже и в последующих статьях, потребуют использования функций из пакета sklearn2pmml.

Для обзора PMML и Scikit-Learn, пожалуйста, ознакомьтесь с моей предыдущей историей на Medium. Затем для более сложных преобразований предварительной обработки данных ознакомьтесь с моими ссылками ниже.

  1. Ограничение экстремальных значений и спецификация отсутствующих значений
  2. Биннинг непрерывных переменных
  3. Биннинг дискретных переменных и обход ловушки фиктивных переменных
  4. Преобразование кодов состояния в фиктивные переменные
  5. Обзор, а также код по объединению функций

Я надеюсь, что эти статьи помогут вам создавать модели в Scikit-Learn и с легкостью запускать их в производство.