Публикации по теме data-pre-processing

Публикации по теме 'data-pre-processing'

Учебник Tensorflow 2.0 по внедрению категориальных функций

Подробное руководство по встраиванию категориальных признаков Вступление : Хорошо известно, что подготовка данных может составлять до 80% времени, необходимого для создания реального продукта машинного обучения. Кроме того, работа с категориальными функциями - одна из тех вещей, которые могут быть немного сложными и требующими много времени, особенно в случае больших кардинальных данных. Когда у вас есть функции с более чем 1000 категориями, и вам нужно построить на их основе..

Предварительная обработка данных - первый шаг в науке о данных

Все мы знаем, что объем данных вокруг нас быстро увеличивается, а также вероятность наличия аномалий в этих данных. Причиной таких аномалий в данных может быть что угодно, например, происхождение разнородных источников, или они могут быть связаны с огромными размерами. Учитывая тот факт, что высококачественные данные позволяют создавать лучшие модели и прогнозы, предварительная обработка данных стала жизненно важной и важнейшим фундаментальным шагом в области науки о данных / машинного..

Первое свидание с машинным обучением

Первое свидание с машинным обучением Понимание предварительной обработки данных Я подумал о машинном обучении знакомств в личных интересах. Как новичку, я бы порекомендовал вам начать с предварительной обработки данных. В этой статье я познакомлю вас с инструментами предварительной обработки данных. Давай попробуем ... В последние несколько дней я познакомился с новым языком, который называется R и буквально связан с его родным братом, Python . Если у вас есть опыт работы с..

Обработка несбалансированных данных с использованием повторной выборки

Несбалансированные данные — широко распространенная проблема в решениях для расширенной аналитики. Введение Данные с несбалансированными классами — распространенная проблема в машинном обучении. Если не обращаться соответствующим образом, это может привести к созданию модели, которая претендует на звание наиболее эффективной модели, но при этом смещается в сторону определенных классов. Например, рассмотрим следующий набор данных, который содержит 10 классов, но вхождение каждого..

Разработка перекрестной проверки

Незнание может дорого обойтись Введение Перекрестная проверка - важный аспект этапа предварительной обработки данных, который обычно игнорируется специалистами по данным. Это одна из тех областей, которые никогда не основываются на прикосновении, и в конечном итоге заинтересованные стороны теряют уверенность в качестве модели, поскольку производительность довольно низкая, если перекрестная проверка не применяется к моделям. Это этап, который появляется в картине, когда мы применяем..

Предварительная обработка данных стала проще

Содержание этой статьи вдохновлено курсом Udemy Machine Learning A-Z Кирилла Еременко и Хаделин Де Понтевес. Если вы специалист по данным, самая важная часть вашего пути - это предварительная обработка данных. Эта часть определяет остальную часть вашей работы. На этом этапе сбора данных данные, которые мы получаем, могут быть не всегда правильными, у нас могут быть некоторые недостающие значения, нежелательные функции или строковые данные. Но для любой хорошей модели машинного обучения..