Публикации по теме 'feature-engineering'
«Разработка функций: ключ к раскрытию истинного потенциала машинного обучения»…
Что такое разработка функций?
Разработка признаков — это процесс использования знаний предметной области для извлечения признаков из необработанных данных. эти функции можно использовать для повышения производительности алгоритмов машинного обучения.
Разработка функций — это процесс преобразования необработанных данных в значимые функции, которые можно использовать для повышения производительности моделей машинного обучения. Он включает в себя выбор, создание или преобразование..
Особенности текстов: EDA и разработка признаков в НЛП
В этой статье я хотел бы поделиться своими знаниями о функциях, которые мы можем извлечь из текстовых данных. Эти функции можно визуализировать на этапе исследовательского анализа данных (EDA) и использовать для разработки функций (FE).
Обзор
Из любого текста мы можем извлечь:
Базовая статистика: количество токенов/символов/знаков препинания/предложений, средняя длина слова/предложения. Лексическое содержание текстов: наиболее часто встречающиеся лексемы, ключевые слова,..
Прогнозирование автора с использованием стандартного классификатора градиентного спуска
Полученные файлы данных имели формат json. Поэтому сначала он был преобразован с использованием следующего кода:
import json
import numpy as np
import pandas as pd
with open('train.json') as file:
train=json.load(file)
file.close()
train = pd.read_json('train.json')
Основная задача состоит в том, чтобы предсказать authorId или имя автора на основе предоставленных поясняющих факторов. Переменные включали идентификатор статьи, название, автора, имя автора, год и место..
Разработка функций I: выбор функций
Выбор функций заключается в извлечении соответствующих функций для прогностических моделей. Он удаляет ненужные функции не только для улучшения прогнозирования модели, но и для ускорения обучения модели.
Выбор функции != Уменьшение размера
Несмотря на то, что обе размерности атрибутов меньше, уменьшение размерности создает новую комбинацию атрибутов (новое пространство признаков), в то время как выбор признаков заключается в том, чтобы отсечь ненужные признаки и сохранить релевантные...
Преобразование данных в машинном обучении, часть II
Почему преобразование «больших данных» и проектирование функций жизненно важны для успеха машинного обучения
В этой статье рассматриваются следующие вопросы: 1. Что такое продукт данных 2. Проблемы преобразования данных 3. Планирование преобразования данных 4. Рекомендации по преобразованию данных.
Реализация модели машинного обучения — это не ракетостроение. Но создание точного прогноза — это то, где в игру вступают опыт и навыки специалиста по данным. С другой стороны, модель..
Машинное обучение с использованием Datetime Feature Engineering: прогнозирование неявок на прием в медицинское учреждение
Давайте сделаем черты для наших моделей по дате и времени!
Даты и время - богатые источники информации, которые можно использовать с моделями машинного обучения. Однако эти переменные datetime требуют некоторой разработки функций, чтобы превратить их в числовые данные. В этом посте я продемонстрирую, как создавать функции datetime со встроенными функциями pandas для ваших моделей машинного обучения.
Когда я преподавал курс машинного обучения в Северо-Восточном университете,..
Целевое кодирование в разработке функций
В этой статье объясняется концепция целевого кодирования , его значение в разработке функций и реализации кода.
Это последняя часть серии Разработка функций , которую я загружал в течение последних 2 недель. В последней части Целевого кодирования мы будем иметь дело с категориальными признаками вместо числовыми признаками . Это метод кодирования категорий в виде чисел, например однократное кодирование или кодирование меток , а также использование цели для создания..