Публикации по теме 'data-wrangling'
Как определить, находится ли вид рыбы под угрозой исчезновения или нет, используя PySpark
Руководство по обработке данных временных рядов ряда исчезающих видов рыб с 1992 года и далее с использованием PySpark.
PySpark удобен, когда данных очень много. В этой статье мы исследуем споры временных рядов ряда исчезающих видов рыб с 1992 года, используя PySpark. Набор данных взят из Kaggle .
Импорт библиотек:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.context import SparkContext
from pyspark.sql.functions import *
from datetime import date,..
Представляем Amazon SageMaker Data Wrangler - AWS re: Invent 2020
Amazon SageMaker Data Wrangler - это новая возможность Amazon SageMaker, которая позволяет специалистам по обработке данных и инженерам быстрее готовить данные для приложений машинного обучения (ML) с помощью визуального интерфейса.
В этом видео я кратко ознакомлю вас с Amazon SageMaker Data Wrangler - новой возможностью для подготовки данных для машинного обучения.
Методы кодирования категориальных атрибутов
При выполнении классификационного анализа на зависимую переменную обычно влияют как качественные (номинальная шкала), так и переменные шкалы отношений. Необходимо кодировать эти категориальные переменные в числовые значения с использованием методов кодирования, поскольку алгоритмы машинного обучения принимают только числовые входные данные. В этом блоге описываются девять различных методов кодирования категориальных переменных, которые можно применять к категориальному набору данных...
Системная динамика и обучающие наборы данных
Недавней тенденцией в сообществе специалистов по данным стал разговор о курировании и обработке набора данных. В корпоративном мире данные никогда не будут такими чистыми, как в соревнованиях Kaggle или данных обучения, которые мы используем в школе. Навыки справляться с такими ситуациями жизненно важны для специалиста по данным, но правильное решение состоит в том, чтобы в первую очередь обеспечить создание достоверных наборов данных. В разговоре о недавно опубликованной статье Бена..
Эта статья заставит вас начать проект по науке о данных
Посмотрим правде в глаза, в начале любого этапа нам нужны руки, чтобы помочь нам, если мы застряли на каком-либо этапе.
Эти типы рук могут иметь любую форму, например, это может быть какая-то статья на Medium, или какое-то видео на YouTube, или небольшой поиск в Google.
Я хочу, чтобы вы рассмотрели эту статью, как одну из тех раздач, которые помогут вам пройти через борьбу и преодолеть ее с помощью следующей стратегии.
Я собираюсь показать вам стратегию, которая фактически..
Панды для начинающих — Изменение фреймов данных — Часть 2
Преобразование ваших данных из полной формы в широкую форму
В последнем уроке мы продемонстрировали функцию Pandas melt для преобразования формы с широкими данными в полную форму. В этом уроке мы сосредоточимся на противоположном процессе. Чтобы объединить всех на одной странице, представляем визуальную информацию о проблеме, которую мы пытаемся решить:
Большинство из нас работали с подобными сценариями при использовании Microsoft Excel. Да, широкая форма таблицы напоминает..
Глава 4: В поисках обработки данных
Приручение диких данных для анализа
Введение . Добро пожаловать в захватывающее путешествие Алекса в область науки о данных. В предыдущей главе мы видели его мастерство программирования на Python. Теперь присоединяйтесь к нам, когда мы приступим к четвертой главе его приключений: В поисках обработки данных.
Суть обработки данных. По мере того, как Алекс углублялся в мир науки о данных, он обнаружил, что необработанные данные часто беспорядочны и неструктурированы. Его следующей..