Публикации по теме 'feature-engineering'


Генетические алгоритмы обработки естественного языка
Почему GA эффективны для предварительной обработки данных НЛП «Подготовка данных составляет около 80% работы специалистов по данным», - Forbes Проекты моделирования НЛП ничем не отличаются - часто самый трудоемкий этап - это обработка данных, а затем разработка функций из очищенных данных. Есть много инструментов, облегчающих этот процесс, но он все равно трудоемок. Чтобы помочь на этапе разработки функций, исследователи из Университета Центральной Флориды опубликовали документ..

Создание функции для прогнозирования цен на недвижимость
Создание функции для прогнозирования цен на недвижимость В этом посте подробно рассматривается разработка функций для прогнозирования цен на недвижимость в Испании. Этот пост имеет следующую структуру. Важность функциональной инженерии Близость крупных городов Раскрученные города Данные о температуре Вывод 01 Важность функциональной инженерии В рамках машинного обучения большой ажиотаж обычно сосредоточен вокруг модных моделей прогнозирования и возможностей для постепенных..

Разработка функций - Автоматизация и оценка - Часть 1
Введение Это первая статья из серии, которую я пишу о разработке функций для науки о данных. В этой серии статей я хочу изучить различные методы создания и оценки функций с применением и без применения популярных фреймворков для создания и выбора функций. Конвейер обработки данных Создание непрерывного конвейера обработки данных для конкретной проблемы - это итеративный процесс, который включает в себя комбинацию различных процессов, рисунок [1]. Сначала специалисты по обработке..

Подготовка данных для моделирования: проектирование элементов, выбор элементов, уменьшение размеров…
Даже в причудливом мире машинного обучения, когда люди не могут правильно ездить на своих транспортных средствах по неровной дороге, алгоритмы машинного обучения тоже не могут дать ожидаемый результат на большом количестве нежелательных смешанных данных. Итак, давайте углубимся и исследуем все наши возможности по оптимизации данных. Примечание. Это может быть немного длинновато. Итак, я делю его на три части. Так что исследуйте эту часть за частью. Часть 1: Разработка функций..

NLP Pipeline 101 с примером базового кода - моделирование
Введение В предыдущих статьях NLP Pipeline 101 с примером базового кода - обработка текста и NLP Pipeline 101 with Basic Code Example - Feature Extraction я говорил о первых двух шагах построения конвейера NLP. В этой статье я остановлюсь на последнем шаге: моделировании. Моделирование Заключительным этапом конвейера НЛП является моделирование , которое включает в себя: Модель : разработка статистической модели или модели машинного обучения; Тренировка : подгонка..

Обработка категориальных функций с использованием методов кодирования в Python
В этом посте мы собираемся обсудить категориальные функции в машинном обучении и методы обработки этих функций с использованием двух наиболее эффективных методов. Категорические признаки В машинном обучении функции можно разделить на две основные категории: Числовые характеристики (возраст, цена, площадь и т. д.) Категориальные признаки (пол, семейное положение, профессия и т.д.) Все те признаки, которые состоят из определенного количества категорий, известны как..

BPDR: новый метод уменьшения размерности
Введение в новый метод уменьшения размерности. Введение Алгоритмы уменьшения размерности, такие как LDA, PCA или t-SNE, являются отличными инструментами для анализа немаркированных (или помеченных) данных и получения дополнительной информации об их структуре и закономерностях. Снижение размерности дает нам возможность визуализировать наборы данных большой размерности, которые могут быть чрезвычайно полезны при выборе модели. Я считаю, что это подмножество машинного обучения - назовем..