Мои советы начинающим специалистам по данным и аналитикам

Панель инструментов для быстрой и грязной визуализации данных

Начните свое исследование с помощью этого набора инструментов

Большинству из нас нужно послушать музыку, чтобы понять, насколько она прекрасна. Но часто мы представляем статистику так: мы просто показываем ноты, мы не играем музыку. - Ханс Рослинг

Визуализация данных имеет первостепенное значение для понимания красоты аналитики данных. Благодаря визуализации данных наши заинтересованные стороны понимают влияние нашего анализа. Это помогает им сосредоточиться и принимать обоснованные решения.

Однако, несмотря на его важность, я всегда получал вопросы от начинающих специалистов по данным о том, как им начать изучать аналитику данных.

Просто, с визуализацией данных.

Панель инструментов для быстрой и грязной визуализации данных

Поскольку существуют общие сценарии, применимые к различным типам наборов данных, я хотел бы сосредоточиться на демонстрации этих фрагментов кода, чтобы вы могли легко подключать и играть.

Это фрагменты кода, основанные на моем личном опыте работы в Google и Visa всякий раз, когда я провожу исследование новых данных и глубокое погружение - мой набор инструментов для быстрой и грязной визуализации данных.

К концу этой статьи вы должны начать реализацию этих кодов и визуализировать свои данные быстрее и эффективнее. Независимо от того, насколько чисты ваши данные, вы можете напрямую запускать эти коды и извлекать аналитические данные.

Если вы хотите продолжить эксперименты с этими инструментами на Iris Dataset и HR Retention Datase t. Не стесняйтесь посещать эту ссылку Colab и запускать их.



Итак, приступим!

Требования к библиотеке

Я всегда рекомендую Matplotlib и Seaborn для выполнения ›80% типичной визуализации данных. Если вы используете Colab, эти библиотеки были предварительно установлены для вас. Если нет, запустите в диспетчере пакетов следующее.

pip install matplotlib
pip install seaborn

Круговая диаграмма

Круговая диаграмма всегда полезна для отображения распределения классов подсчета по объекту. Это очень полезно для изучения распределения классов целевой переменной и проведения проверки работоспособности в зависимости от наших предварительных знаний.

Например, если мы проанализируем три класса в наборе данных Iris, мы ожидаем схожего количества для каждого класса. Но при обнаружении спама и радиолюбителей в Gmail мы ожидаем искаженного распределения классов. Количество спама должно быть меньше количества радиолюбителей.

Вы должны использовать это, когда… есть категориальная целевая переменная.

Распределительный участок

График распределения показывает непрерывное распределение признаков для визуального обнаружения выбросов, асимметрии и эксцесса.

Это поможет вам понять не только текущее распределение, но и выбросы или крайние случаи (например, отрицательные значения). Это поможет вам понять свой набор данных и спроектировать последующую очистку и преобразование данных.

Вам следует использовать это, когда… имеется n непрерывных функций.

Многослойная коробчатая диаграмма

Layered Boxplot - это еще одна визуализация распределения, позволяющая визуализировать различное распределение по классам и быстро находить ключевые шаблоны.

На визуализации ниже вы можете с первого взгляда увидеть, что class ‘setosa’ имеют очень низкое распределение по длине чашелистики, длине_ лепестка и ширине_ лепестка.

Это дает вам представление о том, что важно, и позволяет расставить приоритеты по очистке и преобразованию данных.

Вы должны использовать это, когда… есть n непрерывных функций с категориальной целевой функцией.

Факторная диаграмма

Factorplot визуализирует распределение количества категорий по классам и быстро находит ключевые шаблоны. Это оригинальная визуализация Seaborn, не требующая настройки.

Вы должны использовать это, когда… есть одна категориальная функция с категориальной целевой функцией.

Тепловая карта

Тепловая карта визуализирует корреляции внутри n непрерывных функций. В сочетании с pd.DataFrame.corr () он визуализирует, какие функции соотносятся друг с другом.

Цель корреляционного анализа - дать вам представление о том, какие функции коррелируют друг с другом, что может помешать выработке идей и обучению модели.

В приведенном ниже примере last number_project сильно коррелирован с last_evaluation и average_monthly_hour. Это имеет смысл, потому что чем больше у вас проектов, тем больше часов вам нужно работать.

Если вы перенесете эти функции в регрессионную модель обучения (GLM), не обрабатывая их корреляцию должным образом, регрессия будет преувеличивать важность обеих функций, которые по существу посылают один и тот же сигнал.

Вы должны использовать это, когда… есть n непрерывных функций

Парный сюжет

На парном графике Seaborn выполняется распределение классов в каждой паре объектов. Pairplot - это быстрый способ визуализировать распределение по количеству функций.

Основное предостережение заключается в том, что это может быть шумно, если у вас много функций. Но вы можете исправить и отфильтровать функции с помощью методов выбора функций, таких как Анализ главных компонентов (PCA).

Вы должны использовать это, когда… есть n непрерывных функций с целевой переменной

Коробчатые диаграммы и диаграммы рассеяния

Этот ансамбль дополнительно упрощает взаимосвязь между функциями, чтобы повлиять на целевую переменную. Основываясь на вашей гипотезе (из парного графика или ваших собственных наблюдений), вы можете выбрать эти особенности и быстро построить график.

В приведенном ниже примере вы могли быстро увидеть, что есть 3 кластера, которые определяют оставшихся сотрудников:

  • Высокое среднее количество часов в месяц, низкий уровень удовлетворенности → переутомление и неудовлетворенность
  • Низкое среднее количество часов в месяц, средний уровень удовлетворенности → неуспеваемость
  • Высокое среднее количество часов в месяц, высокий уровень удовлетворенности → отличные результаты

Даже без модели машинного обучения кластеризации диаграммы рассеяния дают нам представление и гипотезы о причинах увольнения сотрудников:

  • Лучшее равновесие между работой и личной жизнью (переутомление и неудовлетворенность)
  • Лучшие проблемы на работе (хуже)
  • Лучшие карьерные возможности (лучший результат)

Вы должны использовать это, когда… есть 2 непрерывных функции и целевая переменная. Это должно быть согласовано с вашей гипотезой.

Последние мысли

Я считаю, что эти коды несложно реализовать сразу при первом исследовании данных. Этот набор инструментов визуализации даст вам необходимое преимущество, чтобы стать более уверенным в изучении и визуализации данных.

Как всегда, по любым вопросам обращайтесь ко мне в Linkedin. Буду рад ответить на ваши вопросы, когда позволит время.

Соли Део Глория

об авторе

Винсент Татан - энтузиаст данных и технологий, имеющий соответствующий опыт работы в Google LLC, Visa Inc. и Lazada в области разработки микросервисных архитектур, бизнес-аналитики и конвейерных проектов аналитики .

Винсент - индонезиец по рождению, за плечами которого успехи в решении проблем, а также сильные стороны в разработке полного стека, аналитике данных и стратегическом планировании.

Он активно консультировал SMU BI & Analytics Club, консультировал начинающих специалистов по обработке данных и инженеров, а также делился своим опытом с компаниями для разработки своих продуктов.

Наконец, свяжитесь с Винсентом через LinkedIn, Medium или Youtube Channel.