Лора: Этот пост посвящен результатам исследования набора данных, для загрузки которого в память потребовалось бы более 250 ГБ. Он использует H2O Flow, Tableau Public и JMP на ноутбуке с 16 ГБ памяти (использование памяти никогда не превышало 8 ГБ). Что вы делаете, когда у вас есть набор данных, вы не знаете его содержания, но знаете цель? Содержание поста осталось нетронутым, но форматирование было изменено, чтобы соответствовать текстовому редактору Medium. Исходный пост можно найти на Kaggle.

Экспресс-анализ файлов

Быстрый анализ на этикетке:

  • Мы играем с коэффициентом дисбаланса 1:172 (172 негатива на 1 позитив): точность 99,41%, если вы предсказываете только отрицательный случай.
  • 1183747 строк
  • 1176868 отрицательных ярлыков
  • 6879 положительных меток

Эволюция метрики выглядит следующим образом (Истинно Положительный против Истинно Отрицательного — FP/FN просты):

Интерактивный ЦУП: Здесь, в Tableau

Быстрый анализ train_numeric.csv:

  • Размер матрицы: [1183747 x 969] (969 признаков, 1183747 наблюдений)
  • Отсутствующие значения не кажутся отсутствующими случайным образом. См. эта веб-страница для более подробной информации
  • Редкий
  • Содержит метку, которую нам нужно предсказать

Скрытый пик:

Быстрый анализ train_categorical.csv:

  • Размер матрицы: [1183747 x 2141] (2141 объект, 1183747 наблюдений)
  • Отсутствующие значения не кажутся отсутствующими случайным образом. См. эту веб-страницу для получения более подробной информации (отредактируйте: кажется, что при загрузке набора данных возникают ошибки импорта, необходимо проверить, но эти подсчеты отсутствующих значений вообще ненадежны).
  • Многие столбцы содержат 1183747 отсутствующих значений или около того (это означает, что вы уже можете удалить многие из них!).
  • Чрезвычайно редкий
  • Лот только 0
  • От L1_S24_F7XX до L1_S24_F9XX (заменить XX цифрами) кажется связанным (те же нули)
  • Множество функций, внутри которых НИЧЕГО (просто немного, см. Ниже)

Скрытый пик:

Быстрый анализ train_data.csv:

  • Размер матрицы: [1183747 x 1157] (1157 признаков, 1183747 наблюдений)
  • Отсутствующие значения не кажутся отсутствующими случайным образом.
  • Редкий
  • Даты уже числовые, кажутся «нормализованными» в целом по дням?

Скрытый пик:

Часть экспедиционного моделирования

Elastic Net на необработанных числовых данных, явно плохо:

Случайный лес на необработанных числовых данных, «неплохо», но может работать намного лучше (10 деревьев, 7 минут):

Единое дерево решений с 5-кратной проверкой первых 50000 наблюдений со всеми функциями: