Публикации по теме 'feature-engineering'


Еще один пост о кодировании категориальных переменных ML
… и «надежный» кодировщик меток scikit-learn 1. Введение Алгоритмы/модели машинного обучения работают, используя в качестве входных числовых значений функции, здесь мы можем рассмотреть некоторые примеры реальных приложений, такие как возраст, доход, количество дней с момента последней транзакции и многие другие. Зачем нам нужно кодирование категориальных значений? Логистическая регрессия и нейронные сети — это простые или сложные вложенные числовые функции , случайные леса и GBM..

Поваренная книга Feature Engineering для машинного обучения
Когда дело доходит до классического машинного обучения, проектирование функций является одним, если не самым важным фактором для улучшения ваших результатов и ускорения вашей модели, даже не утруждая себя настройкой или фантазией с вашей моделью. Ресурсов и книг, которые подробно описывают разработку функций, не так много, поэтому я хотел составить список фрагментов кода, охватывающих большинство техник, которые я нашел в Интернете и использовал в течение долгого времени, которые были..

Simutline для очистки данных в Python для науки о данных
Вот очень общий набросок процесса очистки данных в python для науки о данных. Мы используем библиотеку Pandas и некоторые другие библиотеки Python. импортировать pandas как pd импортировать numpy как np импортировать matplotlib.pyplot как plt # Загрузите данные df = pd.read_csv(‘data.csv’) # проверить типы данных столбцов print(df.dtypes) # проверить отсутствующие значения print(df.isna().sum()) # удалить отсутствующие значения df.dropna(inplace=True) # проверить отсутствующие..

Магазины функций против движков функций
В мире машинного обучения в моде хранилища функций. Они привносят мощь MLOps в оркестровку функций, предоставляя масштабируемую архитектуру, которая хранит и вычисляет функции из необработанных данных и обслуживает эти функции в производственной среде. Хранилища функций могут автоматизировать многие из наиболее утомительных задач, связанных с обработкой функций, таких как управление версиями и мониторинг функций в рабочей среде на предмет дрейфа. Такая автоматизация процесса..

От А до Я: исчерпывающий список методов разработки признаков для машинного обучения
При работе с алгоритмами машинного обучения процесс преобразования необработанных данных в полезные функции, которые можно использовать для обучения моделей, называется проектированием функций. Этот процесс имеет решающее значение для повышения производительности моделей машинного обучения, поскольку качество функций может иметь большее влияние на производительность модели, чем выбор самого алгоритма. В этой статье мы представим исчерпывающий список методов разработки признаков, которые..

Разработка функций для прогнозирования результатов выборов (Python)
Недавно я участвовал в конкурсе Kaggle, где мы должны предсказывать результаты выборов с помощью машинного обучения. Набор данных был взят с всеобщих выборов в Индии в 2019 году ( см. Здесь ). В этой статье объясняется, как очистить и подготовить набор данных, создать новые функции из существующих, а затем предсказать результаты с помощью популярного алгоритма машинного обучения. Здесь нет четкого объяснения большинства основных этапов предварительной обработки, визуализации данных и..

Преимущество центральной предельной теоремы
Когда использовать, как использовать, где использовать, четко понять :) Альтафансари - средний Прочтите письмо Альтафансари на среднем уровне. Каждый день Альтафансари и тысячи других людей читают, пишут и делятся… medium.com Центральная предельная теорема утверждает, что независимо от того, каково распределение совокупности, если я возьму достаточно большое количество случайных выборок (выборка1, выборка2, выборка3, выборка4 и т...