Публикации по теме 'feature-engineering'


Использование featurewiz для выбора функций в больших наборах данных
Featurewiz — это совершенно новая библиотека Python, которая может автоматически помочь вам выбрать лучшие функции из вашего набора данных, какими бы большими они ни были, с помощью всего одной строки кода. Выбор функций имеет два основных преимущества: 1. Вы сможете лучше объяснить свои рассуждения, поскольку в вашей модели меньше функций. 2. В больших наборах данных построение модели со всеми функциями может быть очень дорогим, поскольку обучение может занять слишком много времени...

Отличная статья!
Отличная статья! Понравилось, как вы представили разные методы для разных типов данных (числовых, категориальных, текстовых). Во введении не помешало бы немного больше ясности, так как некоторые люди (включая меня, к стыду), возможно, не знакомы с термином «конструирование функций». Копирование и вставка выделенного предложения из Заключения обязательно поможет! Вот отличная статья (которую я не писал), посвященная различным методам уменьшения размерности, если кому-то интересно...

Разработка функций: искусство извлечения максимальной пользы из ваших данных
Что такое разработка функций и почему она важна для науки о данных Разработка функций — это процесс создания новых переменных из необработанных данных, которые могут улучшить производительность и интерпретируемость моделей обработки данных. Переменные или функции — это характеристики данных, которые мы используем для прогнозирования, классификации, кластеризации или других операций. Разработка функций включает в себя преобразование необработанных данных в новые функции, которые более..

Анализ данных диабета
# importing all the required libraries import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.style.use('seaborn') import seaborn as sns sns.set(rc={'figure.figsize':(11.7,8.27)}) import missingno as msno from sklearn.model_selection import train_test_split from sklearn import preprocessing from sklearn.svm import SVC from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.model_selection import GridSearchCV from..

НЛП Глава 1
Где мы это видим? Когда мы пытаемся набрать предложение в gmail, он пытается выполнить автодополнение, это НЛП, спам-фильтр? это НЛП! Языковой перевод? это тоже НЛП! Чат-бот службы поддержки также является хорошим примером НЛП. Его также используют Alexa, Google Assistant и поисковые системы Google (BERT, представляющий собой двунаправленный кодировщик от преобразователей). БЕРТ: В отличие от направленных моделей, которые считывают вводимый текст последовательно (слева направо..

Приложение CNN для автоматизированного извлечения структурированных данных
Приложение CNN для автоматизированного извлечения структурированных данных Написано: 13 августа 2018 г. Sourish Dey https://www.linkedin.com/in/sourish-dey-03420b1a/ Разработка важных функций: В своей предыдущей статье я обсуждал важность создания богатых функций из ограниченного числа функций. Действительно, реальное качество модели машинного обучения / глубокого обучения зависит от обширной разработки функций, а не от самой техники моделирования. Хотя конкретный..

Разработка функций для машинного обучения в R
Важный процесс извлечения ценной информации из вашего набора данных Эта статья является продолжением рассказа Освойте основы программирования на R . В первом посте я представил строительные блоки R, которые помогут вам ориентироваться в этом языке. Это действительно интуитивно понятно для понимания и изучения. В этом посте я сосредоточусь на обработке признаков, которая представляет собой важную часть любого проекта по науке о данных. Без очищенных данных любые усилия с моделями..