Публикации по теме 'feature-engineering'


День, когда вы стали Кагглером: Часть IV Магия создания полнометражных фильмов!
День, когда вы стали Кагглером: Часть IV Магия создания полнометражных фильмов! Цены на жилье: передовые методы регрессии Ссылка на блокнот Jupyter: Github Машинное обучение 101, больше данных = больше точности. В нашем случае данные ограничены. 1460 тренировочных рядов. Тем не менее, есть потенциал для режима с использованием создания функций. Зачем беспокоиться? Создание признаков дает нашей модели больше информации. Возьмите пример. У нас есть две функции Date и..

Методы выборки и их реализация в python
При проведении исследования или получении заключения о группе людей становится невозможным собрать все данные об этой группе. Следовательно, выбираются выборочные данные, представляющие всю группу данных. Этот метод в основном известен как выборка. Здесь мы столкнемся с двумя ключевыми словами, то есть с населением и выборочными данными. Совокупность — это группа данных, из которой создается выборка. Существует два вида выборки: i) Вероятностное распределение ii) Невероятностная..

Определение интерпретируемых функций
Определение интерпретируемых функций Краткое изложение результатов и разработанной таксономии, разработанной исследователями Массачусетского технологического института. В феврале 2022 года исследователи из группы Data to AI (DAI) Массачусетского технологического института опубликовали статью под названием Необходимость интерпретируемых признаков: мотивация и таксономия [1]. В этом посте я стремлюсь обобщить некоторые из основных моментов и вклада этих авторов, а также обсудить..

Обрабатывать категориальные данные, порядковые данные, которые должен знать каждый специалист по данным и аспирант в 2022 году.
1.One Hot Encoding 2.Count Or Frequency Encoding 3.Ordinal encoding,Monotonic ordinal encoding,Target Guided Ordinal Encoding,Target Guided Mean Encoding 4.Target encoding / Mean encoding 5.Probability Ratio Encoding 6.label encoding or .cat.codes 7.probability ratio encoding 8.woe(Weight_of_evidence) 9.one hot encoding with multi category (keep most frequently repeated only) (One hot encoding of top categories) 10.feature hashing 11.sparse csr matrix..

Boruta SHAP: удивительный инструмент для выбора функций, который должен знать каждый специалист по данным
Как мы можем использовать Boruta и SHAP для создания удивительного процесса выбора функций — с примерами Python При построении модели машинного обучения мы знаем, что наличие слишком большого количества функций приводит к таким проблемам, как проклятие размерности , помимо потребности в большем объеме памяти, времени обработки и мощности. В наших конвейерах Feature Engineering мы используем методы выбора признаков, чтобы попытаться удалить менее полезные признаки из наших наборов..

Учебник по подготовке данных
РАЗРАБОТКА ФУНКЦИЙ И ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ Разработка функций и предварительная обработка данных являются наиболее важными темами в науке о данных. По общему мнению, 80% работы — это предварительная обработка данных, а 20% работы — моделирование в проекте машинного обучения, поэтому есть вопросы, которые необходимо учитывать. Цель этой записной книжки — стать учебным пособием по подходу к подготовке данных. Прежде всего, проверьте, в чем разница между проектированием..

Никогда не покидайте графический процессор: сквозные конвейеры машинного обучения с предварительной обработкой RAPIDS
С момента своего создания RAPIDS cuML предлагал значительно более быстрое обучение и вывод моделей машинного обучения (ML) за счет ускорения графического процессора. Однако, как вам скажет любой специалист по данным, сама модель - это лишь часть того, что нужно для успеха, когда дело доходит до машинного обучения. Часто лучшие решения проблемы машинного обучения включают обширную предварительную обработку входных данных для ускорения сходимости или повышения производительности, а..