Публикации по теме 'feature-engineering'


История отсутствующих данных
Машинное обучение История отсутствующих данных Краткое объяснение того, насколько важны недостающие данные в машинном обучении и как с ними бороться. Отсутствие данных, поскольку название говорит само за себя, означает - В имеющемся наборе данных отсутствуют значения признаков или целевые значения. Классификация отсутствующих данных по причине отсутствия Отсутствующие данные в основном классифицируются на 3 - Отсутствует случайным образом (MAR) - потому что причину,..

Разработка функций PySpark и визуализация многомерных данных с помощью Spark SQL за час
При работе с алгоритмом машинного обучения очень важно определить оптимальные функции, которые используются для обучения модели. Количество входных признаков может быть большим и относиться к разным типам данных, в то время как данные меток для классификации могут иметь неподходящий формат для подачи в модель контролируемого алгоритма машинного обучения. Разработка признаков связана с преобразованием интересующих входных данных (признаков) в векторы признаков, которые представляют собой..

Гибкое машинное обучение для классификации — Неделя 3
После введения Agile Data Science в нашей вводной статье здесь мы построили, а) быстрая базовая модель на неделе 1 , чтобы выяснить, достаточно ли предсказательной силы данных, чтобы тратить больше времени на улучшение б) другая модель на неделе 2 с более чистыми функциями , чтобы посмотреть, улучшит ли она производительность. На этой неделе мы выполним проектирование сложных функций с последующим сокращением функций, чтобы увидеть, могут ли комбинации существующих функций..

Шаги по разработке функций перед построением модели машинного обучения
После исследовательского анализа данных, проверки качества данных и устранения отсутствующих значений данные поезда набора данных готовы к разработке функций. Пожалуйста, посетите мой предыдущий пост об исследовательском анализе данных , прежде чем использовать разработку функций, описанную в этом посте. Мой приведенный ниже пример можно найти в Kaggle . Пожалуйста, найдите набор данных Ниже приведены функции разработки, которые я всегда использую для работы с числовыми и..

Как спроектировать функции байесовского отношения?
Чтобы наши модели машинного обучения могли различать 1/2 и 50/100. Предположим, мы хотим построить модель машинного обучения, которая предсказывает победителя серии пенальти. Среди имеющихся у нас данных о разных футболистах есть Penties_scored и Penties_attempted . Следуя общепринятому мнению, мы проектируем функцию penalty_success_rate = penalties_scored / penalties_attempted Однако, поскольку пенальти и серии пенальти случаются нечасто, у нас есть следующие проблемы с..

Практическое руководство по автоматизированной разработке функций в Python
Любой, кто участвовал в хакатонах и соревнованиях по машинному обучению, может подтвердить, насколько важной может быть разработка функций. Часто это разница между попаданием в топ-10 таблицы лидеров и выходом за пределы топ-50! Я был ярым сторонником разработки функций с тех пор, как осознал ее огромный потенциал. Но если делать это вручную, это может быть медленным и трудным процессом. Мне нужно потратить время на мозговой штурм по поводу того, какие функции нужно придумать, и..

Создание функций: создание функций для неконтролируемого обнаружения аномалий
Введение Как молодой и только что нанятый специалист по данным, работающий над обнаружением мошенничества, я столкнулся с множеством препятствий при разработке решений для сквозного машинного обучения. В этом блоге я хочу поделиться некоторыми идеями и советами из моего опыта решения проблем с обнаружением мошенничества. Я обнаружил, что обнаружение мошенничества или аномалий является одной из ошибочных и запутанных областей по следующим причинам: · Мало доступных ресурсов или..