Публикации по теме 'data-wrangling'


Как определить, находится ли вид рыбы под угрозой исчезновения или нет, используя PySpark
Руководство по обработке данных временных рядов ряда исчезающих видов рыб с 1992 года и далее с использованием PySpark. PySpark удобен, когда данных очень много. В этой статье мы исследуем споры временных рядов ряда исчезающих видов рыб с 1992 года, используя PySpark. Набор данных взят из Kaggle . Импорт библиотек: import pandas as pd from pyspark.sql import SparkSession from pyspark.context import SparkContext from pyspark.sql.functions import * from datetime import date,..

Представляем Amazon SageMaker Data Wrangler - AWS re: Invent 2020
Amazon SageMaker Data Wrangler - это новая возможность Amazon SageMaker, которая позволяет специалистам по обработке данных и инженерам быстрее готовить данные для приложений машинного обучения (ML) с помощью визуального интерфейса. В этом видео я кратко ознакомлю вас с Amazon SageMaker Data Wrangler - новой возможностью для подготовки данных для машинного обучения.

Методы кодирования категориальных атрибутов
При выполнении классификационного анализа на зависимую переменную обычно влияют как качественные (номинальная шкала), так и переменные шкалы отношений. Необходимо кодировать эти категориальные переменные в числовые значения с использованием методов кодирования, поскольку алгоритмы машинного обучения принимают только числовые входные данные. В этом блоге описываются девять различных методов кодирования категориальных переменных, которые можно применять к категориальному набору данных...

Системная динамика и обучающие наборы данных
Недавней тенденцией в сообществе специалистов по данным стал разговор о курировании и обработке набора данных. В корпоративном мире данные никогда не будут такими чистыми, как в соревнованиях Kaggle или данных обучения, которые мы используем в школе. Навыки справляться с такими ситуациями жизненно важны для специалиста по данным, но правильное решение состоит в том, чтобы в первую очередь обеспечить создание достоверных наборов данных. В разговоре о недавно опубликованной статье Бена..

Эта статья заставит вас начать проект по науке о данных
Посмотрим правде в глаза, в начале любого этапа нам нужны руки, чтобы помочь нам, если мы застряли на каком-либо этапе. Эти типы рук могут иметь любую форму, например, это может быть какая-то статья на Medium, или какое-то видео на YouTube, или небольшой поиск в Google. Я хочу, чтобы вы рассмотрели эту статью, как одну из тех раздач, которые помогут вам пройти через борьбу и преодолеть ее с помощью следующей стратегии. Я собираюсь показать вам стратегию, которая фактически..

Панды для начинающих — Изменение фреймов данных — Часть 2
Преобразование ваших данных из полной формы в широкую форму В последнем уроке мы продемонстрировали функцию Pandas melt для преобразования формы с широкими данными в полную форму. В этом уроке мы сосредоточимся на противоположном процессе. Чтобы объединить всех на одной странице, представляем визуальную информацию о проблеме, которую мы пытаемся решить: Большинство из нас работали с подобными сценариями при использовании Microsoft Excel. Да, широкая форма таблицы напоминает..

Глава 4: В поисках обработки данных
Приручение диких данных для анализа Введение . Добро пожаловать в захватывающее путешествие Алекса в область науки о данных. В предыдущей главе мы видели его мастерство программирования на Python. Теперь присоединяйтесь к нам, когда мы приступим к четвертой главе его приключений: В поисках обработки данных. Суть обработки данных. По мере того, как Алекс углублялся в мир науки о данных, он обнаружил, что необработанные данные часто беспорядочны и неструктурированы. Его следующей..