Представляем последнюю минуту визуализации Xtrain ytrain

Итак, вы выполнили всю работу по обработке данных. Вы хорошо подготовили все свои данные, выполнили минимаксное масштабирование, разработку функций и так далее. Вы даже разработали идеальный чистый и нетронутый стол, который, как вы убедились, существует! :П

Итак, каков следующий шаг?

Допустим, мы решаем задачу классификации и хотим передать наши функции либо алгоритму машинного обучения, либо даже нейронной сети. Мы называем эти входные функции Xtrain. Тогда метки будут ytrain. У нас также будет контрольный набор Xval, yval и, конечно же, тестовый набор Xtest и ytest.

Теперь у меня есть к вам вопрос. Что именно вы загружаете в модель? Насколько вы уверены, что Xtrain хорошего качества?

Отказ от ответственности: это все еще на стадии концепции, мне еще предстоит полностью спроектировать это и преобразовать его в пригодный для использования код. Просто хочу сначала поделиться идеей. Если это осуществимо или полезно, то, возможно, однажды он станет репозиторием или даже пакетом Python.

Вы можете ответить, что уже провели исследовательский анализ данных (EDA). Да это ожидаемо. Но знаете ли вы после всех усилий по предварительной обработке, что произошло с вашими данными и как они были преобразованы?

Что, если мы сможем точно визуализировать, как выглядит одна запись? Например, запись в виде двумерного тензора вводится в рекуррентную нейронную сеть (RNN). Вы уверены, что переделали его правильно? Что, если бы вы могли выполнить проверку работоспособности, чтобы убедиться, что ввод соответствует ожиданиям?

Я считаю, что это один из способов подтвердить знания предметной области в ваших моделях машинного обучения. Всякий раз, когда мы занимаемся проектированием функций, когда при подаче последовательности в модель мы хотим наблюдать за визуализацией Xtrain как формой проверки работоспособности.

Например, при прогнозировании того, будет ли цена актива, такого как криптовалюта, расти или падать в течение следующего временного шага, мы можем передать ему последовательность индекса относительной силы (RSI) в качестве функций. Когда мы видим, что RSI имеет тенденцию к снижению, мы знаем, что передаем эту нисходящую тенденцию в модель, и, естественно, мы можем ожидать, исходя из знаний предметной области, что цена, скорее всего, продолжит движение вниз, а не вверх, и это должно иметь место для нашей модели. набор данных.

Даже для других табличных данных мы должны иметь возможность наблюдать за сводной статистикой, распределениями и другими интересующими метриками, чтобы гарантировать, что на последней миле наши модели получают высококачественные данные. Думайте об этом как о дополнительном EDA, но вместо этого о нашем окончательном наборе функций.

#ship30for30day5

Ship30for30 — официальный писательский курс, участники которого должны написать 30 публикаций за 30 дней. Эта публикация — моя попытка неофициально принять участие в этом 30-дневном испытании.