Публикации по теме 'feature-engineering'


Методы кодирования, роль кодирования в предварительной обработке категориальных данных для машинного обучения
Алгоритмы машинного обучения требуют в качестве входных данных числовых данных, тогда как категориальные данные, представляющие группы или метки, не могут использоваться непосредственно в их исходной форме. Поэтому методы кодирования используются для преобразования категориальных данных в числовую форму, что упрощает их обработку моделями машинного обучения. Это позволяет моделям машинного обучения понимать взаимосвязь между различными категориями и использовать их для прогнозирования...

Снижение размерности с помощью факторного анализа
Введение: Самая большая проблема с алгоритмами машинного обучения - переоснащение. Вы всегда можете найти сверхсложные способы моделирования или создания наборов данных для обучения и проверки, но переобучение всегда будет появляться в конце, что вас сильно расстраивает. Чтобы решить эту проблему, вам необходимо подготовить набор входных данных только с теми переменными, которые являются информативными и не имеют перекрывающейся информации. При расшифровке различных шаблонов данных..

Искусство выбора переменных в науке о данных: создание команды-победителя.
В области науки о данных выбор переменных является важным процессом, который может существенно повлиять на успех модели или анализа. Точно так же, как футбольный тренер стремится создать лучшую команду для победы на чемпионате мира, специалисты по данным должны тщательно выбирать наиболее важные функции из своего набора данных. В этом блоге мы рассмотрим искусство выбора переменных и различные методы, используемые для определения лучших функций, обеспечивающих надежную и эффективную модель...

Данные 4 ML (часть 3): типы данных
В области науки о данных в целом важно понимать различные типы данных по нескольким причинам. Не только потому, что тип данных поможет определить метод очистки и обработки этих данных, но и знание того, являются ли данные неструктурированными или, возможно, количественными, также может многое рассказать вам об измеряемом явлении реального мира. Глядя на структурированные данные, мы поняли, что каждый столбец (функция) может быть одним из следующих четырех уровней: Номинал...

Дневники Искры
«Из крошечной« Искры »может вспыхнуть могущественное пламя» ~ Данте Алигьери Как, что и почему? У меня и Спарк были отношения любви и ненависти последние два года или около того. Все началось после того, как я тяжело расстался с ульем, и я понял, что мне лучше без него. Я подумал, что должен высказать свое мнение и дать несколько советов по взаимоотношениям с людьми, которые проходят свой путь через этот трудный, но кое-что полезный этап жизни. На более серьезном замечании,..

Основы разработки признаков
Давайте начнем с хорошего определения разработки функций. «Разработка функций — это процесс преобразования необработанных данных в функции, которые лучше представляют основную проблему для прогностических моделей, что приводит к повышению точности модели на невидимых данных». 👉 Почему проектирование функций имеет решающее значение? Краткий ответ: Представьте, что вы строите великолепное здание на слабом фундаменте — результатом будет неустойчивость и хрупкость. Точно так же без..

Урок 50 — Машинное обучение: расширенные темы в AutoML (интуиция)
Автоматизированная разработка функций Разработка функций — это процесс создания новых функций или изменения существующих функций для повышения производительности модели машинного обучения. Этот процесс обычно выполняется вручную и требует знаний предметной области, что может занимать много времени и быть сложным. Автоматизированная разработка признаков направлена ​​на автоматизацию этого процесса. Это делается с помощью алгоритмов машинного обучения для выявления закономерностей и..