Публикации по теме data

Публикации по теме 'data'

Автоматическая классификация текста с использованием машинного обучения

Оцифровка изменила способ обработки и анализа информации. Доступность информации в Интернете растет в геометрической прогрессии. От веб-страниц до электронной почты, научных журналов, электронных книг, учебных материалов, новостей и социальных сетей - все это полно текстовых данных. Идея состоит в том, чтобы быстро создавать, анализировать и сообщать информацию. Это когда автоматическая классификация текста активизируется. Классификация текста - это умная классификация текста по..

Обнаружение аномалий в данных

Нормальное распределение, наиболее часто встречающееся и используемое распределение, описывается двумя параметрами: μ и σ². Они определяют, как будет выглядеть раздача. Собственно говоря 68% данных лежат в районе первого стандартного отклонения (σ) от среднего (по 34% с каждой стороны), 26,2 % данных лежат между первым и вторым стандартным отклонением (σ) (по 13,1 % с каждой стороны) и так далее. Это означает, что примерно 95% данных в распределении Гаусса находятся в пределах..

Квантизаторы во временных рядах данных

Ожидается, что подготовка данных составит 80% усилий в проектах AI и ML. Это значение в основном связано с необходимостью очистки данных, но есть также действия, связанные с нормализацией данных, которые занимают значительное время, особенно до тех пор, пока не будет найден правильный подход. Как и во многих других аспектах науки о данных, результат с точки зрения объема кода невелик, поскольку мы имеем дело с более точными, хорошо написанными компактными алгоритмами, а не с большими..

DataScience-Coding-CheatSheet9894139165

ЭДА-МЛ # warnings import warnings warnings.filterwarnings("ignore") # Feature Engineering def condition(s): x = 'underweight' y = 'overweight' z = 'fit' if(s["old_col"] < 18.5): return x elif(s["old_col"] > 24.7): return y else: return z df['new_column'] = df.apply(condition, axis=1) #subplot fig, ax = plt.subplots(nrows = , ncols= , figsize=(20, 30)) for i, subplot in zip(df.columns, ax.flatten()):..

Изучение малоизвестных функций SQL для анализа данных

В области SQL существует несколько расширенных функций, которые часто остаются недостаточно используемыми, несмотря на их потенциал для оптимизации анализа данных, повышения производительности и выполнения более сложных запросов. Давайте углубимся в некоторые из этих менее известных функций SQL, которые могут расширить ваши возможности анализа данных: Давай начнем 1. Функции окна: Оконные функции позволяют выполнять вычисления по набору строк, связанных с текущей строкой. Эти..

Именованные и безымянные кортежи Python

Справочная информация о кортежах Имея словари * для обработки неупорядоченных объектов и списки для обработки упорядоченных объектов, вы можете задаться вопросом, где следует использовать тип данных tuple . . Создатель Python — математик по образованию, и он создал кортеж как простую ассоциацию объектов. Слово кортеж происходит от математики и относится к конечной упорядоченной последовательности элементов.

Будьте на шаг впереди: защитите свои данные от утечек в процессе подготовки данных

Подготовка данных — это процесс преобразования необработанных данных в форму, подходящую для моделирования. Наивный подход к подготовке данных применяет преобразование ко всему набору данных перед оценкой эффективности модели. Информация из набора задержек попадает в набор данных, используемый для обучения модели, что вызывает проблему, известную как утечка данных . При прогнозировании на основе свежих данных это может привести к неточной оценке производительности модели. Чтобы..