Публикации по теме 'feature-engineering'


«Разработка функций: ключ к раскрытию истинного потенциала машинного обучения»…
Что такое разработка функций? Разработка признаков — это процесс использования знаний предметной области для извлечения признаков из необработанных данных. эти функции можно использовать для повышения производительности алгоритмов машинного обучения. Разработка функций — это процесс преобразования необработанных данных в значимые функции, которые можно использовать для повышения производительности моделей машинного обучения. Он включает в себя выбор, создание или преобразование..

Особенности текстов: EDA и разработка признаков в НЛП
В этой статье я хотел бы поделиться своими знаниями о функциях, которые мы можем извлечь из текстовых данных. Эти функции можно визуализировать на этапе исследовательского анализа данных (EDA) и использовать для разработки функций (FE). Обзор Из любого текста мы можем извлечь: Базовая статистика: количество токенов/символов/знаков препинания/предложений, средняя длина слова/предложения. Лексическое содержание текстов: наиболее часто встречающиеся лексемы, ключевые слова,..

Прогнозирование автора с использованием стандартного классификатора градиентного спуска
Полученные файлы данных имели формат json. Поэтому сначала он был преобразован с использованием следующего кода: import json import numpy as np import pandas as pd with open('train.json') as file: train=json.load(file) file.close() train = pd.read_json('train.json') Основная задача состоит в том, чтобы предсказать authorId или имя автора на основе предоставленных поясняющих факторов. Переменные включали идентификатор статьи, название, автора, имя автора, год и место..

Разработка функций I: выбор функций
Выбор функций заключается в извлечении соответствующих функций для прогностических моделей. Он удаляет ненужные функции не только для улучшения прогнозирования модели, но и для ускорения обучения модели. Выбор функции != Уменьшение размера Несмотря на то, что обе размерности атрибутов меньше, уменьшение размерности создает новую комбинацию атрибутов (новое пространство признаков), в то время как выбор признаков заключается в том, чтобы отсечь ненужные признаки и сохранить релевантные...

Преобразование данных в машинном обучении, часть II
Почему преобразование «больших данных» и проектирование функций жизненно важны для успеха машинного обучения В этой статье рассматриваются следующие вопросы: 1. Что такое продукт данных 2. Проблемы преобразования данных 3. Планирование преобразования данных 4. Рекомендации по преобразованию данных. Реализация модели машинного обучения — это не ракетостроение. Но создание точного прогноза — это то, где в игру вступают опыт и навыки специалиста по данным. С другой стороны, модель..

Машинное обучение с использованием Datetime Feature Engineering: прогнозирование неявок на прием в медицинское учреждение
Давайте сделаем черты для наших моделей по дате и времени! Даты и время - богатые источники информации, которые можно использовать с моделями машинного обучения. Однако эти переменные datetime требуют некоторой разработки функций, чтобы превратить их в числовые данные. В этом посте я продемонстрирую, как создавать функции datetime со встроенными функциями pandas для ваших моделей машинного обучения. Когда я преподавал курс машинного обучения в Северо-Восточном университете,..

Целевое кодирование в разработке функций
В этой статье объясняется концепция целевого кодирования , его значение в разработке функций и реализации кода. Это последняя часть серии Разработка функций , которую я загружал в течение последних 2 недель. В последней части Целевого кодирования мы будем иметь дело с категориальными признаками вместо числовыми признаками . Это метод кодирования категорий в виде чисел, например однократное кодирование или кодирование меток , а также использование цели для создания..