Публикации по теме 'feature-engineering'


Что оставить, а что удалить
Выполнение проектирования функций в наборе данных Следующим шагом после изучения закономерностей в данных является разработка функций. Любая операция, выполняемая над функциями / столбцами, которая может помочь нам сделать прогноз на основе данных, может быть названа проектированием функций. Это будет включать следующее на высоком уровне: добавление новых функций устранение некоторых функций, которые рассказывают одну и ту же историю объединение нескольких функций вместе..

Машинное обучение - диагностика неисправностей трекеров транспортных средств с помощью CNN
Начальные соображения Несколько недель назад я опубликовал еще одну статью с почти таким же названием: Машинное обучение - диагностика неисправностей в трекерах автопарка Решение на основе данных для диагностики неисправностей в модулях слежения. todatascience.com В этой истории я использовал некоторые специфические знания о работе модулей отслеживания для извлечения функций вручную; Теперь, в этой истории, я стремлюсь..

Использование кластеризации для разработки функций в наборе данных Iris
Вот ссылка на Jupyter Notebook, содержащий весь код на Github Вступление Кластеризация - это метод, используемый для исследования базовых данных. Различные алгоритмы, используемые для кластеризации, имеют разные определения того, как создавать кластеры. В нашем анализе мы будем использовать метод кластеризации, известный как k-means . k-means - это алгоритм разделения, который разбивает пространство данных на k кластеров и использует следующие шаги для его достижения:..

Лучше, меньше и быстрее с word2vec
Мотивация IbottaML движется к сервис-ориентированной архитектуре , в которой мы предоставляем услуги машинного обучения заинтересованным сторонам, а не функции нашего озера данных. Требования к функциям этих моделей отличаются от требований наших структур моделирования пакетного прогнозирования; В отличие от наших традиционных больших и разреженных пространств функций, эти новые функции необходимо сжать для обеспечения переносимости при сохранении предсказуемости. Чтобы удовлетворить..

Методы разработки признаков для текстовых данных
Краткое изложение методов преобразования текстовых данных для НЛП Почему мы заботимся о Feature Engineering Когда у вас есть базовая модель для любой проблемы, которую вы пытаетесь решить, вы хотите ее улучшить. Хотя попытка подобрать различные типы моделей, безусловно, является одним из способов сделать это, и попытка найти оптимальный гиперпараметр поможет. Еще один важный шаг — разработка функций . Известный как секретный источник для создания более эффективных моделей..

Машинное обучение с помощью python: EDA, очистка, разработка функций и оценка модели Ensemble
Набор данных «Титаник» — хорошая площадка для отработки ключевых навыков науки о данных. Здесь я хочу показать полное руководство по исследовательскому анализу данных, очистке данных, разработке функций и выбору модели с помощью python, pandas, seaborn, matplotlib и, наконец, sklearn. Затем мы подойдем к настройке гиперпараметров с помощью GridSearchCV и, наконец, объединим наши модели с ансамблем. Полный код этой статьи доступен на github . 1. Начните импортировать библиотеки..

Введение в уменьшение размерности
Почти все модели машинного обучения будут страдать от проклятия размерности, поэтому сегодняшний пост посвящен технике уменьшения размерности. Мы рассмотрим, что именно представляет собой проклятие размерности и как оно влияет на производительность ваших моделей, а также практические способы его устранения. Содержание Проклятие размерности Разработка функций Выбор функций Другие методы Проклятие размерности (COD) Проще говоря, COD происходит, когда набор данных, который вы..