Рассказывая действенные истории с данными
Введение
В этой статье я расскажу о четырех распространенных ошибках при исследовании данных и о том, как их избежать.
Исследовательский анализ данных (EDA) — это обнаружение тенденций и закономерностей в данных с использованием графических представлений и сводной статистики. Популярные графики для EDA включают диаграммы рассеяния, гистограммы, гистограммы, круговые диаграммы и тепловые карты. Кроме того, сводная статистика, которая является мерой для описания набора данных, включает количество, среднее значение, медиану, стандартное отклонение и асимметрию.

EDA — один из важнейших шагов в жизненном цикле проекта по науке о данных, который помогает лучше понять данные перед моделированием машинного обучения. Это также может привести к некоторым быстрым победам, чтобы создать ценность для бизнеса за счет практических идей.

Основными целями EDA являются выявление ошибок в данных, лучшее понимание данных, обнаружение выбросов и выявление взаимосвязей между переменными.
Подводные камни в исследовательском анализе данных
Чтобы достичь заявленных целей EDA, специалисты по работе с данными должны избегать следующих ловушек во время исследования данных:
- Неясные бизнес-проблемы
В основе каждого проекта по науке о данных лежит бизнес-задача, которую необходимо решить. Как планировать сезонные распродажи? Какие акции следует предлагать разным клиентам? Вот некоторые из вопросов, которые могут быть заданы. Тем не менее специалисты по работе с данными не обязательно разбираются в бизнесе, а менеджеры могут не быть экспертами в области данных, что приводит к плохо сформулированным бизнес-задачам. Кроме того, имеющихся данных может быть недостаточно для ответа на соответствующие вопросы.
Советы, как избежать этой ловушки:
- Заблаговременно получите обратную связь от заинтересованных сторон.
- Уточняйте требования как можно скорее.
- Относитесь к EDA как к повторяющемуся процессу, требующему частого возврата к заинтересованным сторонам.
2. Поверхностная аналитика
Желание делать быстрые открытия не совсем неправильно. Однако то, что вы считаете отличным пониманием, может быть просто «констатацией очевидного» для заинтересованных сторон. Вопрос «ну и что?» очень распространено, и специалисты по обработке данных должны быть готовы к этому во время анализа. Представьте, что вы сообщаете отделу продаж, что клиент А больше всех тратит в этом году. Да, это правда, но они, вероятно, уже знают об этом.
Советы, как избежать этой ловушки:
- Адаптируйте свои выводы к бизнес-проблеме и тому, как повысить ценность.
- Ответить на вопрос «ну и что?» вопрос заранее (убедитесь, что идеи применимы к действиям).
- Проведите предварительное обсуждение предварительных результатов, когда вы обнаружите идеи.
3. Неверные выводы
Есть несколько причин, по которым специалисты по обработке данных могут прийти к неверным выводам. Общие из них включают отсутствие знаний предметной области, отношение к корреляции как к причинно-следственной связи и игнорирование смешивающих переменных.
Советы, как избежать этой ловушки:
- Расширьте свои знания в сфере бизнеса.
- Отточите свои навыки статистики.
- Консультируйтесь с заинтересованными сторонами бизнеса во время анализа.
4. Плохая визуализация
Что может пойти не так с визуализацией? Много! Вот лишь некоторые из них: неправильный выбор графиков, вводящая в заблуждение шкала оси, использование слишком большого количества цветов, нечувствительность к некоторым дальтоникам в аудитории и отображение неправильных единиц измерения. Существует множество ресурсов о том, как правильно визуализировать данные. Следовательно, советы в этом разделе представляют собой ссылки на учебные пособия, которые помогут улучшить ваши навыки визуализации данных.
Ресурсы:
- https://online.hbs.edu/blog/post/bad-data-visualization
- https://www.datapine.com/blog/misleading-data-visualization-examples/
- https://www.jotform.com/blog/bad-data-visualization/
Выводы
В этой статье мы рассмотрели распространенные ловушки при исследовании данных и то, как их можно избежать. Кроме того, мы выделили цели EDA и предоставили некоторые ресурсы для улучшения ваших навыков визуализации данных.
Надеюсь, вам понравилась эта статья, до следующего раза. Ваше здоровье!
Что еще интересного? Вы можете получить доступ к более информативным статьям от меня и других авторов, подписавшись на Medium по моей реферальной ссылке ниже, которая также поддерживает мои статьи.