Публикации по теме feature-engineering

Публикации по теме 'feature-engineering'

Упрощение предварительной обработки данных: стандартизация против нормализации

Что такое «предварительная обработка»? Представьте свой набор данных как головоломку, каждая часть которой содержит ключ к более широкой картине. Но прежде чем вы сможете собрать головоломку и раскрыть ее суть, вам необходимо убедиться, что эти части идеально сочетаются друг с другом. Именно здесь на помощь приходит «предварительная обработка данных» — это похоже на очистку, сортировку и полировку этих частей головоломки, чтобы убедиться, что они готовы к осмысленному расположению...

У разработки функций есть языковая проблема

Инжиниринг признаков является важной частью любого рабочего процесса машинного обучения (ML), поскольку он позволяет создавать более сложные модели, чем с использованием только необработанных данных, но он также является одним из самых сложных в управлении. Он страдает от языкового барьера — разницы в языках, используемых для кодирования логики обработки. Проще говоря, специалисты по данным определяют свои вычисления функций на одном языке (например, Python или SQL), и инженерам данных..

Разработка признаков с прямым и обратным исключением

Иногда, когда вы подбираете модели для проверки их точности прогнозирования, вы обнаруживаете, что имеете дело со слишком большим количеством предикторов (характеристических переменных). Вы можете опираться на свои знания в предметной области или знания доступного эксперта в предметной области, чтобы уменьшить количество предикторов до тех пор, пока у вас не останутся только те, которые обеспечат вашей модели превосходную точность. Но если вам не хватает знаний в предметной области, есть..

Отфильтруйте шум из ваших данных с помощью Kydavra PCAFilter

PCA - больше, чем просто уменьшение размеров. Анализ главных компонентов известен как один из самых популярных методов уменьшения размерности. Однако немногие знают, что у него есть очень интересное свойство - уменьшенные данные можно вернуть к исходному измерению. Более того, данные, возвращенные к исходному размеру, более очищены. Итак, в Sigmoid мы решили создать модуль, чтобы легко применять это свойство к фреймам данных pandas. Использование PCAFilter из библиотеки Kydavra...

Как справиться со многими задачами Pandas, изучив только десять типов функций

Данные беспорядочны. На самом деле, самые богатые и интересные данные могут быть чрезвычайно беспорядочными. К счастью для нас, библиотека предварительной обработки данных pandas может помочь нам спроектировать даже самые запутанные данные. Pandas — это швейцарский армейский нож для создания и преобразования фреймов данных. Однако одним из недостатков pandas является то, что это МАССИВНАЯ библиотека. Пользователи-новички, как правило, ошеломлены, столкнувшись с множеством функций..

Овладение искусством проектирования функций для достижения успеха в машинном обучении

В мире машинного обучения, где алгоритмы и модели определяют понимание и принятие решений, роль разработки функций часто остается невоспетым героем за кулисами. Разработка функций, искусство преобразования необработанных данных в значимые функции для обучающих моделей, — это секретный соус, который может поднять ваши проекты машинного обучения из хороших в выдающиеся. В этом посте мы углубимся в мир разработки функций, изучая его важность, стратегии и лучшие практики. Основа: понимание..

Как я улучшил свою модель классификации текста с помощью разработки функций

Расширенный анализ текста для повышения точности вашей модели В этой статье я покажу вам, как провести текстовый анализ, чтобы повысить точность вашей модели и обнаружить несколько фактов в ваших данных. Для этого я буду использовать набор данных, доступный на Kaggle . Этот набор данных состоит из комментариев из «изменений страницы обсуждения Википедии», он снабжен идентификаторами пользователей, опубликовавших комментарий, но у нас нет информации о прокомментированной странице или..