Подход тематического исследования к пониманию сущностей и требований в пространстве науки о данных

«Около четырех с половиной лет назад я изо всех сил пытался понять всю концепцию Data Science. Исходя из не статистического фона, я был настроен скептически, обеспокоен и, что более важно, был неприятен. Я сомневался, смогу ли я выжить в отрасли, которая, как я полагал, была тяжелой для статистики. Но вот я все еще плыву по ветру, приобретая в процессе несколько навыков. Я не собираюсь учить вас науке о данных, потому что я все еще изучаю ее. Но я расскажу вам свой опыт работы с Mu Sigma и Novartis, начиная с нуля и сумев медленно и неуклонно подниматься по служебной лестнице »

Я всегда слышу много вопросов о том, что представляет собой проект по науке о данных? Есть ли несколько перекрестных функций, которые объединяются, чтобы сформировать этот более широкий спектр? Может ли человек, не связанный с информатикой или статистикой, попасть в эту отрасль? Несколько сущностей объединяются в группу Data Science. Часто роли и обязанности заранее определены и требуют единого стиля работы для достижения более крупной цели. Единственная цель этой статьи - дать вам представление об этих сущностях и помочь вам выбрать трек, а не переходить на онлайн-курс.

Позвольте мне привести пример, чтобы объяснить взаимодействие между разными сущностями. Крупный аптечный ритейлер (компания, продающая лекарства) планирует расширить свой рынок и увеличить выручку. В рамках этого процесса они решили поговорить с врачами и рассказать им обо всех преимуществах, которые пациенты получат при посещении их аптек. Выгода может заключаться в специализированном обслуживании, скидках, меньшем количестве очередей или времени ожидания, доступности лекарств, более плавном процессе подачи заявления на страхование и т. Д. Этот процесс часто называют «ориентацией на врача». Теперь, чтобы начать эту инициативу, руководитель отдела аналитики решает собрать все четыре команды под одной крышей.

Роль бизнес-аналитика

Ожидается, что бизнес-аналитик в этом проекте будет взаимодействовать с различными заинтересованными сторонами, такими как руководители брендов, фармацевты, менеджер магазина, торговые представители, и понимать, как работает рынок. Это поможет им подумать обо всех возможных ключевых показателях эффективности (KPI) и использовать их для определения приоритетов врачей, на которых необходимо ориентироваться.

Допустим, бизнес-аналитик определяет количество пациентов (общее количество пациентов, посещающих врача), сценарии (выписанные рецепты), специальность врача (например, если врач невролог, кардиолог , Семейный врач и т. Д.), демографические данные пациентов (люди, живущие рядом с аптекой, их возраст, доход, история болезни) и рынок конкурентов (доход, полученное количество пациентов конкурирующими аптеками) в качестве некоторых КПЭ. Теперь они передадут требования к данным группе аналитиков данных. Однако роль бизнес-аналитика на этом не заканчивается. Ожидается, что они будут создавать отчеты о начальных рыночных тенденциях и сводках, таких как объем пациентов и сценариев по специальностям врачей, географии и т. Д., Как только они получат поток данных.

Требования к бизнес-аналитику

  • Понимание того, как работает система здравоохранения
  • Аналитическое мышление, позволяющее определять различные проблемные области, возможные факторы, влияющие на эти области, и, что более важно, критический подход к проверке каждой гипотезы, тенденций и бизнес-показателей.
  • Основные статистические концепции, такие как описательная статистика (среднее значение, медиана, режим и когда их использовать), корреляция, проверка гипотез и значимости (z-тест и t-тест). В Excel есть все встроенные функции для выполнения этих задач. Бизнес-аналитик должен уметь интерпретировать результаты и использовать их для подтверждения своих выводов и идей.
  • Практический опыт работы с одним из инструментов ETL - SQL, Python, R, SAS или Alteryx (SQL - один из таких языков программирования, который можно использовать на нескольких платформах). Большинство крупных предприятий с огромными объемами данных работают в основном на SQL.
  • Excel - формулы, сводные таблицы и диаграммы, срезы, VBA (полезно знать, помогает в автоматизации)
  • Силовая установка
  • Навыки эффективного общения для представления результатов и идей более широкой группе

Роль аналитика данных

Я считаю, что аналитик данных играет важнейшую роль в любой цепочке цикла принятия решений. Две причины. «Во-первых, они являются ключевым рычагом для обеспечения сбора, преобразования и хранения данных таким образом, чтобы они были структурированы и готовы к использованию. Во-вторых, у большинства организаций есть огромные объемы данных, которые требуют времени и навыков для преобразования в полезную форму ». В приведенном выше примере один раз бизнес-аналитик передает требования к данным, а аналитик данных работает в направлении закупок. , очистка и интеграция данных в специальные области хранения Организации, доступные для различных бизнес-подразделений.

Розничный продавец аптек будет генерировать огромные объемы данных о транзакциях, хранящихся в необработанной форме в какой-то собственной базе данных. Такие наборы данных будут содержать информацию, относящуюся к врачам, пациентам, магазинам, лекарствам и многому другому. Теперь цель аналитика данных - обработать эти данные, добавить необходимую информацию из других соответствующих таблиц и создать нечто, известное как набор аналитических данных или ADS. ADS - ключевая концепция любой отрасли аналитики. Поскольку несколько бизнес-единиц в конечном итоге будут работать над одним и тем же набором данных, важно создать Единый источник правды, чтобы обеспечить согласованность цифр, сообщаемых по всей организации. Также часто организации получают данные от сторонних поставщиков, например данные конкурентов. Аналитик данных отвечает за упрощенную интеграцию таких баз данных в систему компании.

Требования к аналитику данных

  • Глубокое понимание системы управления реляционными базами данных
  • Глубокое понимание наборов данных, информации, которую они содержат, их уровней (первичный и внешний ключи) и т. Д.
  • Практический опыт работы с SQL, SAS или любым другим инструментом ETL является обязательным.
  • Хорошее знание статистики на случай, если потребуется большая очистка данных. Необходимо знать методы, связанные с обработкой пропущенных значений, такие как базовые методы, такие как среднее значение, медиана, режим и расширенные методы, такие как K ближайшего соседа, пространственная кластеризация и k-средства
  • SAS имеет встроенные функции для запуска описательной статистики и алгоритмов кластеризации, но в сценариях, где вся предварительная обработка данных выполняется в SQL, важно знать один из R или Python.

Роль продвинутого аналитика

После того, как аналитик данных завершит подготовку данных, а бизнес-аналитик выполнит некоторое начальное упражнение по глубокому погружению, передового аналитика (также известного как специалист по данным) просят запустить модель сегментации, чтобы определить кластер высокопрофессиональных врачей, на которых могут нацеливаться их Торговый представитель. Специалисту по продажам предоставляется список всех возможных рекомендуемых переменных, на основании которых он, как ожидается, запустит модель и выдаст окончательную рекомендацию.

В этом случае использования после создания наборов данных на уровне пациента, медицинского работника, сценария, конкурента бизнес-аналитик выполнит базовый обзор того, как существующий бизнес-сценарий выглядит в разных географических регионах. Будет рекомендован список регионов с высокими перспективами, по которым Advanced Analyst будет запускать свои модели и создавать окончательный рекомендуемый список.

Требования к продвинутому аналитику

  • Глубокое понимание методов машинного обучения, в первую очередь алгоритмов и математики, лежащих в их основе. Мы часто игнорируем концепции линейной регрессии, логистической регрессии, дерева решений или нейронной сети, потому что большинство платформ предлагают функции, которые могут дать результат в течение определенного промежутка времени. Однако знание математики позволяет вам разрезать данные для достижения желаемых результатов.
  • Часто результаты любого упражнения по моделированию не соответствуют тому, что вы видите в большинстве руководств. Иногда бывает трудно интерпретировать результаты и сделать из них коммерческий смысл, поэтому некоторая деловая хватка рынка полезна.
  • Практический опыт работы с SAS, R или Python
  • Заинтересованные стороны не очень хорошо знакомы со статистикой, поэтому необходимы хорошие коммуникативные навыки, чтобы преобразовать тета-значения в бизнес-действия.

Роль аналитика визуализации

Аналитик визуализации приступает к работе над более поздней частью проекта после развертывания инициативы. Как только торговые представители начнут нацеливаться на врачей, самое время провести некоторую оценку воздействия и что может быть лучше, чем создание информационной панели, которая отслеживает все показатели эффективности в одном месте.

Большинство организаций в наши дни избегают работы разрозненно. Следовательно, ранее тенденция, которая включала несколько отчетов для разных бизнес-единиц, замедляет привязку к своего рода панели мониторинга 360. Следовательно, специалисты по визуализации востребованы, потому что они знают искусство создания лучших информационных панелей в городе. В этом случае, как только бизнес решает отслеживать рентабельность инвестиций (возврат инвестиций), он просит аналитика визуализации создать информационную панель, которая представляет сводки в детализированной форме.



Требования к эксперту по визуализации

  • Глубокое знание одного из следующих Power BI, Tableau или Qlik Sense (иногда HTML)
  • В настоящее время на рынке правит Tableau, однако организации также постепенно переходят на Qlik Sense. Qlik Sense считается панелью самообслуживания с возможностями ETL и более быстрой обработкой данных. Панель самообслуживания определяется как платформа, на которой эксперты, не являющиеся специалистами по визуализации, могут просто перетаскивать их, чтобы создавать сводки, диаграммы, фильтры и т. д.. QVD или Qlikview Data имеют меньшее время обработки и основано на архитектуре Qlik, что упрощает обслуживание

Теперь, когда вы знаете, как работают разные сущности, я рекомендую вам подумать о том, что вас интересует, и соответственно выбрать онлайн-учебную программу, а не сразу переходить на какой-либо онлайн-курс. Вы можете прочитать эту статью « 50 лет науки о данных Дэвида Донохо», если вам нужна подробная информация об истории и будущем отрасли науки о данных.