Рассказывая действенные истории с данными

Введение

В этой статье я расскажу о четырех распространенных ошибках при исследовании данных и о том, как их избежать.

Исследовательский анализ данных (EDA) — это обнаружение тенденций и закономерностей в данных с использованием графических представлений и сводной статистики. Популярные графики для EDA включают диаграммы рассеяния, гистограммы, гистограммы, круговые диаграммы и тепловые карты. Кроме того, сводная статистика, которая является мерой для описания набора данных, включает количество, среднее значение, медиану, стандартное отклонение и асимметрию.

EDA — один из важнейших шагов в жизненном цикле проекта по науке о данных, который помогает лучше понять данные перед моделированием машинного обучения. Это также может привести к некоторым быстрым победам, чтобы создать ценность для бизнеса за счет практических идей.

Основными целями EDA являются выявление ошибок в данных, лучшее понимание данных, обнаружение выбросов и выявление взаимосвязей между переменными.

Подводные камни в исследовательском анализе данных

Чтобы достичь заявленных целей EDA, специалисты по работе с данными должны избегать следующих ловушек во время исследования данных:

  1. Неясные бизнес-проблемы

В основе каждого проекта по науке о данных лежит бизнес-задача, которую необходимо решить. Как планировать сезонные распродажи? Какие акции следует предлагать разным клиентам? Вот некоторые из вопросов, которые могут быть заданы. Тем не менее специалисты по работе с данными не обязательно разбираются в бизнесе, а менеджеры могут не быть экспертами в области данных, что приводит к плохо сформулированным бизнес-задачам. Кроме того, имеющихся данных может быть недостаточно для ответа на соответствующие вопросы.

Советы, как избежать этой ловушки:

  • Заблаговременно получите обратную связь от заинтересованных сторон.
  • Уточняйте требования как можно скорее.
  • Относитесь к EDA как к повторяющемуся процессу, требующему частого возврата к заинтересованным сторонам.

2. Поверхностная аналитика

Желание делать быстрые открытия не совсем неправильно. Однако то, что вы считаете отличным пониманием, может быть просто «констатацией очевидного» для заинтересованных сторон. Вопрос «ну и что?» очень распространено, и специалисты по обработке данных должны быть готовы к этому во время анализа. Представьте, что вы сообщаете отделу продаж, что клиент А больше всех тратит в этом году. Да, это правда, но они, вероятно, уже знают об этом.

Советы, как избежать этой ловушки:

  • Адаптируйте свои выводы к бизнес-проблеме и тому, как повысить ценность.
  • Ответить на вопрос «ну и что?» вопрос заранее (убедитесь, что идеи применимы к действиям).
  • Проведите предварительное обсуждение предварительных результатов, когда вы обнаружите идеи.

3. Неверные выводы

Есть несколько причин, по которым специалисты по обработке данных могут прийти к неверным выводам. Общие из них включают отсутствие знаний предметной области, отношение к корреляции как к причинно-следственной связи и игнорирование смешивающих переменных.

Советы, как избежать этой ловушки:

  • Расширьте свои знания в сфере бизнеса.
  • Отточите свои навыки статистики.
  • Консультируйтесь с заинтересованными сторонами бизнеса во время анализа.

4. Плохая визуализация

Что может пойти не так с визуализацией? Много! Вот лишь некоторые из них: неправильный выбор графиков, вводящая в заблуждение шкала оси, использование слишком большого количества цветов, нечувствительность к некоторым дальтоникам в аудитории и отображение неправильных единиц измерения. Существует множество ресурсов о том, как правильно визуализировать данные. Следовательно, советы в этом разделе представляют собой ссылки на учебные пособия, которые помогут улучшить ваши навыки визуализации данных.

Ресурсы:

Выводы

В этой статье мы рассмотрели распространенные ловушки при исследовании данных и то, как их можно избежать. Кроме того, мы выделили цели EDA и предоставили некоторые ресурсы для улучшения ваших навыков визуализации данных.

Надеюсь, вам понравилась эта статья, до следующего раза. Ваше здоровье!

Что еще интересного? Вы можете получить доступ к более информативным статьям от меня и других авторов, подписавшись на Medium по моей реферальной ссылке ниже, которая также поддерживает мои статьи.