Каждый проект в области науки о данных преследует одну из этих трех целей.

Что такое анализ данных? Это простой вопрос, но ответы часто сбивают с толку. Я регулярно слышу, как люди говорят, что наука о данных - это не что иное, как статистика, одетая в модную одежду. Науку о данных в шутку назвали статистикой на Mac. А дата-сайентиста называют аналитиком данных, живущим в Калифорнии. 😂

Хотя эти утверждения носят юмористический характер, совсем не очевидно, что включает в себя наука о данных. За эти годы появилось много диаграмм Венна и множество определений в области науки о данных. Однако в моем исследовании те, которые я обнаружил, были либо запутанными, либо отсутствовали одна из трех основных функций науки о данных.

В этой статье вы узнаете о трех основных частях науки о данных. Вы также узнаете о развивающемся типе проектов в области науки о данных. Наконец, вы увидите две другие области, которые важны для науки о данных, но не являются частью ее ядра.

Проект по науке о данных преследует одну из трех целей: либо дать понимание, установить причинно-следственную связь, либо сделать прогнозы. Эти три цели связаны с областями анализа данных, статистики и машинного обучения.

  • Анализ используется для извлечения и передачи информации из существующих данных.
  • Статистика используется для установления причинно-следственной связи.
  • Машинное обучение ставит своей целью прогнозирование.

Определение науки о данных

Вот мое определение, охватывающее все три области:

Наука о данных использует данные для принятия лучших решений с помощью анализа для понимания, статистики для определения причинно-следственной связи и машинного обучения для прогнозирования.

Можно быть только аналитиком данных, статистиком или инженером по машинному обучению. Однако специалист по данным - это человек, который может сделать все три. 👍

После написания этой статьи я увидел, что проницательная и красноречивая Кэсси Козыркова пришла к аналогичному выводу - она ​​определяет науку о данных как дисциплину, позволяющую сделать данные полезными, а затем разбивает ее на статистику. машинное обучение и интеллектуальный анализ данных. Подобный анализ убедил меня в том, что полезно попытаться помочь людям понять, что такое наука о данных, сосредоточив внимание на этих трех основных аспектах. 🎉

Кроме того, мне смиренно напомнили, что большинство моих полуприличных мыслей, вероятно, было у Кэсси много лет назад. 😀

Контекст науки о данных

Вот мое изображение того, как данные проходят через организацию. Основные роли в науке о данных выделены персиковым цветом.

Давайте сначала посмотрим на анализ данных.

Анализ данных 📊

Цель анализа данных - найти понимание существующих данных.

Пример вопроса для анализа: Что вызвало падение продаж в прошлом месяце?

Человек, задающий вопрос, может захотеть, чтобы вы сэкономили ему время, проведя соответствующее исследование. Совет от Кэсси Козырковой за то, что она хорошо объяснила эту идею в этой статье.

В качестве альтернативы задающий вопрос может попросить вас ответить на его вопрос и придумать повествование. Затем вы будете использовать эти данные в качестве доказательства своего аргумента в пользу падения продаж.

Работа аналитика данных требует честного изучения вопросов. Вам нужны рабочие гипотезы, но вы должны следить за тем, куда ведут доказательства, и генерировать новые гипотезы на основе того, что вы обнаружите.

Анализ данных требует критического мышления и интеллектуальной честности.

Плохо используемый анализ данных - это запутывание. Это Как лгать со статистикой. Он утверждает, что в США все хорошо с точки зрения COVID-19, и подкрепляет это утверждение графиком, показывающим количество смертей как долю случаев. 🤦‍♂ ️ Гораздо более актуальным показателем является количество умерших от общей численности населения. Вы можете увидеть эту диаграмму для крупных развитых стран ниже.

При анализе данных вы можете погрузиться в область причинно-следственной связи, но вы должны быть осторожны с заявлением о причинной связи. Вы не проводите эксперименты и не используете статистические выводы.

Говорящие головы фондового рынка весь день занимаются анализом и часто используют язык причинности. Их объяснения правдоподобны, но, как правило, их нельзя проверить.

  • Почему сегодня фондовый рынок вырос? Трейдерам понравились цифры вакансий.
  • Почему он снизился? Трейдеры не обращали внимания на отчет о плохих вакансиях.

Вы должны быть настроены скептически. Эти причинные утверждения нельзя отрицать.

При анализе данных отчеты и презентации часто выполняются разово. Если вы обнаружите, что постоянно представляете одни и те же показатели и графики. Было бы неплохо настроить информационную панель, которая будет автоматически собирать данные и показывать эти метрики и визуализации заинтересованным сторонам.

Наиболее распространенными технологическими инструментами для анализа данных являются SQL, Excel, Tableau в указанном порядке. Следующим по распространенности является программирование на Python и R. См. Мой анализ технологий для позиции аналитика данных здесь.

Чтобы стать компетентным в анализе данных, обычно требуется наименьшее время обучения из трех областей. Вам необходимо понимать, как запрашивать данные, использовать описательную статистику и отображать данные. Вам не обязательно нужны навыки программирования или продвинутая статистика. Однако навыки программирования часто полезны для автоматизации анализа.

Теперь давайте посмотрим на вторую ключевую область науки о данных: статистику.

Статистика 🔢

Статистика - ключевая часть научного метода. Именно так мы берем собранные данные и применяем вероятность и математическую строгость, чтобы сделать причинно-следственные утверждения.

Пример вопроса о статистике. Какая версия нашего веб-сайта приносит больше продаж?

Допустим, вы хотите повысить коэффициент конверсии своего сайта. Конечно, вы использовали лучшие практики в области пользовательского опыта и дизайна веб-сайтов. 😀 Теперь у вас есть два разных дизайна веб-сайта, которые вы хотите протестировать.

Вы хотите экстраполировать на генеральную совокупность на основе рандомизированного контрольного эксперимента с выборкой из этой совокупности. Если вы хотите сделать это с помощью A / B-теста на основе статистики наиболее часто используемых данных, вам необходимо заранее определить, сколько данных нужно собрать и каково ваше ограничение для определения значимости. Без обмана! Статистика - это строгость. ☝️

В качестве альтернативы, чтобы ответить на этот вопрос, вы можете использовать тест многорукого бандита из байесовской статистики. Оба метода стремятся сделать выводы на основе случайной выборки населения. См. Это сообщение в блоге для получения дополнительной информации по теме.

При статистике вы заботитесь о величине эффекта, p-значениях и доверительных интервалах или вероятных интервалах. Вы не согласны с центральной предельной теоремой. Вы знаете статистические распределения и общие статистические тесты, такие как тесты хи-квадрат, ANOVA, линейная регрессия и логистическая регрессия. Вы можете создавать временные ряды с помощью ARIMA или экспоненциального сглаживания Холта-Винтерса.

Вы можете использовать R, Python (вероятно, с pandas или NumPy и statsmodels или scipy) или SAS в качестве инструментов.

Статистика часто связана с сопоставлением данных с теоретическим распределением некоторых явлений. Вот отличная статья об истории науки о данных и статистики.

В зависимости от вашей исследовательской проблемы вам может потребоваться глубокий опыт в предметной области или кто-то, кто имеет это в вашей команде. 👍

Теперь давайте посмотрим на машинное обучение, крутого парня, сделавшего науку о данных популярной.

Машинное обучение 🖥

Ключевой особенностью машинного обучения является преобладание прогнозов.

Пример вопроса о машинном обучении: Какой будет отток клиентов в следующем месяце?

Когда вы занимаетесь машинным обучением, вас не слишком заботят предположения о статистических распределениях, вы заботитесь о том, что работает. Возможно, вам все равно, какие переменные привели к результатам.

Было ли нарушено предположение об однородности дисперсии линейной регрессии? Если вас волнует только то, насколько хорошо модель предсказывает переменную результата, то разумным ответом будет «Кого волнует, моя модель предсказывает хорошо». Люди, занимающиеся машинным обучением, - прагматики.

Однако многие проблемы машинного обучения во многом совпадают со статистикой.

  • Иногда объяснимость является ключевой - например, при решении вопроса о предоставлении кредита в банке. Когда вам нужно сказать, почему кому-то было отказано в ссуде, имеют значение статистические требования к интерпретируемости. В этом случае вы заботитесь о предсказательной достоверности и интерпретируемости. 👍
  • Машинное обучение использует некоторые алгоритмы со статистикой, такие как линейная и логистическая регрессия.
  • Подобно статистикам, исследователям машинного обучения нужна простейшая модель, которая хорошо работает. Это экономит время и деньги на обучение и выводы.

Есть также некоторые фундаментальные различия со статистикой, помимо того, что машинное обучение больше занимается прогнозированием.

  • Ожидается, что люди, занимающиеся машинным обучением, будут более искусными в программировании, чем люди, которые строго занимаются статистикой.
  • В машинном обучении вы обучаете свои модели и оцениваете тип модели и гиперпараметры на основе данных, которых они раньше не видели. Такой набор тестов на устойчивость обычно не встречается в традиционной статистике.
  • Машинное обучение предназначено для использования больших объемов данных и большей вычислительной мощности. Его сложные алгоритмы стали полезными, когда вычислительная мощность стала дешевой, а данных стало много.

Давайте теперь перейдем к глубокому обучению - семейству алгоритмов машинного обучения, в котором происходят удивительные прорывы. ☀️

Глубокое обучение 🧠

Глубокое обучение, также известное как искусственные нейронные сети, требует множества слоев скрытых узлов. Веса узлов итеративно обновляются по мере обучения модели с целью оптимизации функции потерь.

Глубокое обучение поглощает все больше и больше проблем, которые раньше решались с помощью более традиционных алгоритмов машинного обучения.

Если взаимосвязь между переменными-предикторами и переменной результата является сложной, глубокое обучение часто является предпочтительным инструментом. Например, классификация изображений - это одна из областей, в которой глубокое обучение преуспевает. Обработка естественного языка (NLP) - еще одна область, в которой глубокое обучение используется для многих видов прорывов в области искусственного интеллекта.

Хотя понимание, причинно-следственная связь и прогнозирование - это типы задач, которые обычно решают специалисты по данным, они начали использовать глубокое обучение для четвертой задачи: создание.

Творческие прорывы происходят за счет использования генеративных состязательных сетей (GAN). Значение этой области для будущего человечества велико. Ознакомьтесь с последней моделью НЛП GPT-3, чтобы увидеть, что возможно. 😲

Большинство специалистов по обработке данных не используют глубокое обучение для творчества, хотя его распространенность растет. В будущем творчество может стать основным компонентом роли специалиста по данным.

Вы видели, как специалист по обработке данных использует анализ данных, статистику и машинное обучение. Теперь давайте кратко рассмотрим две области, которые важны для науки о данных, но не являются частью ее ядра.

Инженерия данных

Сбор, хранение и подготовка данных жизненно важны для науки о данных. Возможно, вы слышали статистику, согласно которой 80% работы специалиста по обработке данных - это очистка данных. Однако это число, похоже, является результатом чего-то вроде телефонной игры. 📞 Смотрите большое исследование, копаясь в источниках здесь.

Ниже приведена диаграмма из опроса разработчиков Kaggle 2018, показывающая, как респонденты тратят свое время. В опросе было около 24 000 ответов со всего мира. Обратите внимание, что в него входят не только специалисты по обработке данных, но и большое количество студентов.

Как бы то ни было, сбор и очистка данных занимали в среднем более 25% времени респондентов. Это немаловажно, но и не 80%. 😉

В последние несколько лет инженер по обработке данных стал отдельной должностью. Многие организации теперь имеют специальных инженеров по обработке данных, которые создают конвейеры для передачи, преобразования и хранения данных для использования другими людьми. Однако в небольшой организации инженерию данных и машинное обучение может выполнять один и тот же человек.

Все это означает, что многие специалисты по обработке данных тоже занимаются сбором и очисткой данных - это просто не их основная функция.

Теперь давайте сосредоточимся на том, что происходит с моделями машинного обучения после того, как они покидают специалиста по данным. 🚀

Машинное обучение

Инженеры по машинному обучению спрашивают: Что мы можем построить с помощью этих моделей и как это сделать? - Калеб Кайзер здесь.

Инженеры по машинному обучению создают модель. Инженеры по машинному обучению должны гарантировать, что модели будут постоянно обновляться и что они будут надежно делать быстрые и качественные прогнозы в масштабе. См. Мою статью о востребованных технических навыках для инженеров машинного обучения здесь.

Инжиниринг данных и машинное обучение важны для науки о данных, но не в ее основной области.

Резюме

Основные цели проекта в области науки о данных - это понимание, причинно-следственная связь или прогнозирование.

Чтобы хорошо заниматься наукой о данных, необходимы основы кодирования, этики, коммуникации, математики и критического мышления. Это также требует понимания контекста проблемы. Несмотря на большой набор навыков, специалисты по анализу данных не единороги. 🦄

Специалистам по данным необходимо понимание процессов анализа, статистики и машинного обучения. Понимание инженерии данных и машинного обучения тоже ценно. Однако необязательно быть профессионалом во всем. Вот для чего нужны товарищи по команде. 😀

Прежде всего, специалисты по обработке данных постоянно учатся. Я предлагаю вам сосредоточиться на собственном учебном путешествии и принять смирение, которое приходит с чувством, что всегда есть чему поучиться. Это лучше, чем чувствовать себя подавленным. 😂

Сворачивать

Надеюсь, вам понравилась эта статья и вы нашли ее полезной. Если да, поделитесь им в своих любимых социальных сетях, чтобы другие тоже могли его найти. 😀

Я пишу о Python, SQL, Docker и других технических темах. Если вас это интересует, подпишитесь на мой список рассылки потрясающих ресурсов по науке о данных и читайте больше, чтобы помочь вам развить свои навыки здесь. 👍

Удачи в науке о данных! 😀