Публикации по теме 'feature-engineering'


Проектирование элементов с использованием геопространственных данных: прогнозирование продолжительности поездки в такси Нью-Йорка
В последнее время популярность данных о мобильности резко возросла из-за COVID-19, поэтому я хотел поработать над проблемой прогнозирования, связанной с геопространственными данными. Я решил заняться конкурсом NYC Cab Trip Duration Kaggle , цель которого - предсказать продолжительность поездки на такси Нью-Йорка, учитывая в первую очередь геопространственные и временные особенности. Используя модель LightGBM, я смог получить оценку RMSLE 0,38109, что поставило бы меня на позицию # 177 из..

Разработка функций для компьютерного зрения
Введение В последние годы область компьютерного зрения претерпела огромный рост, и ее приложения варьируются от автономных транспортных средств до систем распознавания лиц. Создание успешных моделей компьютерного зрения требует глубокого понимания разработки признаков, процесса выбора, извлечения и преобразования соответствующих признаков из необработанных данных для повышения производительности модели. В этом эссе мы обсудим проектирование признаков для моделей компьютерного зрения и его..

Борьба с проклятием размерности
Методы уменьшения размеров вашего набора данных, чтобы уменьшить переоснащение и ускорить процесс Когда вы работаете с данными высокой размерности, вы, скорее всего, столкнетесь с такими проблемами, как переобучение, более длительное время вычислений и/или неоднозначные выводы. В этой статье мы рассмотрим некоторые методы уменьшения размерности данных высокой размерности. Но перед этим давайте поговорим о нескольких вещах, которые важно понять, прежде чем углубляться в уменьшение..

5 способов использования гистограмм с алгоритмами машинного обучения
С точки зрения разработки функций Разработка функций — это процесс использования знаний предметной области для создания функций, улучшающих работу алгоритмов машинного обучения. Это важнейшая часть прикладного машинного обучения, которая часто определяет разницу между успешными и неудачными проектами. С другой стороны, гистограммы известны как один из первых шагов к предварительной обработке данных. Это важный шаг для исследования данных с простыми основами: он обобщает ваши..

Держите свою модель науки о данных максимально простой, но не более простой
Используйте график ковариационной матрицы, чтобы выбрать соответствующие функции для построения модели. « Все нужно делать как можно проще, но не проще». Альберт Эйнштейн Алгоритм машинного обучения (например, классификация, кластеризация или регрессия) использует обучающий набор данных для определения весовых коэффициентов, которые можно применять к невидимым данным в целях прогнозирования. Перед реализацией алгоритма машинного обучения необходимо выбрать только релевантные..

Использование данных переписи населения и жилья для прогнозирования цен на жилье в Линкольне, штат Небраска: создание базы данных
Это вторая статья из серии, в которой описаны шаги, предпринятые для создания модели машинного обучения для прогнозирования цен на жилье. Если вы пропустили первую статью, вы можете прочитать ее здесь . Данные для этого проекта были собраны. Следующим шагом является создание базы данных для хранения данных. Это поможет организовать данные для проекта. На этом этапе процесса я также займусь разработкой некоторых функций и очисткой. Я создал приведенный ниже сценарий, который использует..

Что такое хранилища данных и как наука о данных может их решить
Пример использования науки о данных в малом и среднем бизнесе В нашем современном цифровом мире данные повсюду. Но то, что данные повсюду, не означает, что данные доступны везде. Наоборот, на самом деле. Большая часть данных, генерируемых цифровыми продуктами, бесполезна, потому что данные не предназначены для изучения, а скорее используются для поддержки производительности цифрового продукта. В результате данные хранятся в пределах архитектуры, используемой для поддержки..