Гарвин Ли

Перепись — это официальное обследование населения, в ходе которого регистрируются сведения о лицах в различных аспектах. С помощью данных переписи мы можем измерить корреляцию некоторых характеристик населения, таких как влияние образования на уровень доходов. Эта оценка может быть сделана на основе других атрибутов, таких как возраст, географическое положение и пол. В этой статье мы покажем вам, как настроить продукт Alibaba Cloud Платформа машинного обучения для ИИ для проведения аналогичного эксперимента с использованием данных переписи населения.

Введение в набор данных

Источник данных: Набор данных с открытым исходным кодом UCI Adult — результат переписи для определенного региона в США, всего 32 561 экземпляр. Подробные поля выглядят следующим образом:

Процедура исследования данных

На домашней странице консоли машинного обучения выберите случай переписи и нажмите «Создать из шаблона», как показано ниже.

Интерфейс эксперимента показан на следующем рисунке.

  1. Первая часть рисунка — это область компонента. Пользователь может перетащить его в пустую область посередине, чтобы настроить эксперимент.
  2. Вторая часть рисунка представляет собой экспериментальную область. Пользователь может поставить эксперимент в этой области.
  3. Третья часть рисунка — область конфигурации компонента. Пользователь может настроить параметры компонента в этой области.

Эксперимент состоит из трех частей, как показано на следующем рисунке.

Первая часть относится к подготовке источника данных, вторая часть относится к статистике данных, а третья часть относится к влиянию образования на доход.

Подготовка источника данных

Загрузите данные в MaxCompute через IDE машинного обучения или Инструмент командной строки Tunnel. Прочитайте данные через компонент Read Table (источник данных — Demographics на рисунке). Затем щелкните правой кнопкой мыши компонент, чтобы просмотреть данные, как показано ниже.

Статистика данных

С помощью полной статистики таблицы и статистики числового распределения (представление данных и компонент гистограммы в эксперименте) можно определить, соответствует ли фрагмент данных распределению Пуассона или распределению Гаусса, а также является ли он непрерывным или дискретным.

Каждый компонент Alibaba Cloud Machine Learning обеспечивает визуализацию результатов. На рисунке ниже представлен гистограммный компонент числовой статистики, на котором четко видно распределение каждой входной записи.

Влияние образования на доход

Алгоритмы машинного обучения используются для извлечения признаков, чтобы вычислить, какие факторы оказывают наибольшее влияние на доход. Этот документ просто анализирует доходы людей с разным уровнем образования. Основная цель - представить использование платформы машинного обучения.

Предварительная обработка данных

Как показано на следующем рисунке, первым компонентом, через который проходят данные, является сценарий SQL, реализующий предварительную обработку данных. Этот эксперимент преобразует поле «доход» из строкового типа в двоичную форму 0 и 1. 0 означает годовой доход ниже 50 000, а 1 означает годовой доход выше 50 000 (оцифровка текстовых данных — распространенный метод обработки функций машинного обучения). .

Фильтрация и сопоставление

С помощью компонента фильтрации и сопоставления данные делятся на три части в зависимости от образования, а именно: доктор, магистр и бакалавр, как показано на следующем рисунке.

Компонент фильтрации и сопоставления поддерживает операторы SQL, и пользователю необходимо заполнить фильтр «где» на панели конфигурации справа.

Статистика результатов

Доля дохода по каждому классу может быть получена с помощью процентильных компонентов. Ниже представлена ​​линейная диаграмма. Видно, что население с годовым доходом ниже 50 тыс. (точки со значением 0) составляет около 25% от общего числа.

Объедините три компонента процентилей, чтобы получить результаты, показанные ниже.

Посетите страницу Alibaba Cloud Machine Learning Platform for AI, чтобы познакомиться с возможностями машинного обучения Alibaba Cloud уже сегодня!

Ссылка: https://www.alibabacloud.com/blog/analyzing-census-data-using-alibaba-clouds-machine-learning-platform_594277?spm=a2c41.12435641.0.0