Публикации по теме 'feature-engineering'


Анализ проекта Titanic (набор данных Kaggle)
Титаническая задача - одно из самых популярных соревнований на Kaggle и отличный проект, которым стоит заняться как начинающий специалист по данным. Эта разбивка проекта включает несколько советов и приемов, которые помогут получить точность более 70%. Усовершенствовать это оставлено на ваше усмотрение. Цель - точное предсказание выживших среди пассажиров Титаника. В этом блокноте 82,26% - это лучший результат по обучающей выборке с использованием логистической регрессии, а 0,77 - это..

Отбелите ваши данные с помощью imperio WhiteningTransformer
Разработка функций - это процесс преобразования ваших входных данных таким образом, чтобы они были более репрезентативными для алгоритмов машинного обучения. Однако о нем очень часто забывают из-за отсутствия простого в использовании пакета. Вот почему мы решили создать одно - imperio , третье наше непростительное проклятие. Как работает WhiteningTransformer? Отбеливание или сферирование - это этап предварительной обработки данных. Его можно использовать для удаления корреляции..

Выбор функций в машинном обучении
В этой статье мы обсудим важность процесса выбора функций , почему это необходимо и какие существуют типы выбора функций . . Итак, приступим… Что такое процесс выбора функций? Это процесс выбора необходимых функций, которые больше влияют на выходную переменную. Это означает, что нам нужно выбрать только те признаки (независимые переменные), которые тесно связаны с выходной переменной. Это самый важный процесс для создания модели машинного обучения. Почему важен выбор..

Автоматизированная разработка функций может изменить то, как вы занимаетесь машинным обучением
Разработка признаков — это ресурсоемкий процесс машинного обучения. Исследователи данных тратят много времени на этот шаг. Это важная часть конвейера машинного обучения. В процессе разработки функций специалисты по данным используют свои знания в предметной области для создания независимых переменных или функций. С помощью этих функций алгоритмы машинного обучения могут лучше интерпретировать данные и создавать более точные модели. До сих пор проектирование признаков было ручным..

Почему проектирование функций имеет значение
Три причины, почему вы не должны игнорировать это Говоря о машинном обучении, мы часто начинаем с алгоритма: линейной регрессии, деревьев решений и чаще всего довольно эффектных нейронных сетей. Это особенно заметно при общении с людьми, плохо знакомыми с доменом. Алгоритмы, безусловно, важны, но обсуждение обычно следует начинать с качества и количества доступных нам данных. И хотя ответ на вопрос являются ли данные более важными, чем алгоритм » нельзя назвать простым да или..

Выбор признаков для уменьшения размерности (метод обертки)
В машинном обучении выбор важных функций в данных является важной частью полного цикла. Передача данных с нерелевантными функциями может повлиять на производительность модели, поскольку модель запоминает переданные в нее нерелевантные функции. Необходимость выбора функций: Это помогает упростить модели, чтобы их было проще и быстрее обучать. Сокращает время обучения. Помогает избежать проклятия размерности , Улучшение обобщения за счет уменьшения переобучения (формально,..

Категориальное кодирование в разработке признаков.
Одно горячее кодирование Одно горячее кодирование состоит в кодировании каждой категориальной переменной различными логическими переменными (также называемыми фиктивными переменными), которые принимают значения 0 или 1, указывая, присутствует ли категория в наблюдении. Например, для категориальной переменной «Пол» с метками «женский» и «мужской» мы можем сгенерировать логическую переменную «женский», которая принимает 1, если человек «женский», или 0 в противном случае, или мы можем..