Использование принципа Парето для повышения вашей уверенности как специалиста по данным

1. Непростая задача изучить Data Science

Наука о данных - это захватывающая область, в которой растет спрос на квалифицированных и опытных специалистов. Традиционный специалист по анализу данных имеет опыт работы в области компьютерных наук, математики, инженера или физики. Но мы также находим других профессионалов из самых разных областей, не имеющих сильного математического образования, таких как лингвистика и геномика, и это лишь некоторые из них.

Но независимо от вашего прошлого вопрос, который мы все задаем, когда проявляется интерес к Data Science:

«Какие навыки / знания мне необходимы, чтобы стать специалистом по анализу данных?».

Многие авторы писали об этой теме, и список необходимых навыков обычно огромен. В целом он охватывает следующие темы:

  1. Математика (линейная алгебра и исчисление)
  2. Статистика
  3. Программирование (Python, R, Julia, Scala и т. д.)
  4. SQL
  5. Обработка данных и предварительная обработка
  6. Визуализация данных
  7. Обучение с учителем
  8. Обучение без учителя
  9. Глубокое обучение
  10. Платформа больших данных (Spark или Hadoop)
  11. Облачные вычисления
  12. Коммуникативные навыки

Просматривая список, вы обычно обнаруживаете, что не владеете большинством навыков, определенных как «необходимые». Вы расстраиваетесь, у вас появляется синдром самозванца, и вы понимаете, что вам понадобятся тысячи часов обучения, чтобы охватить основы, чтобы стать младшим специалистом по данным.

Что ж, плохая новость:

«Вам, вероятно, потребуются тысячи часов учебы и тяжелой работы, чтобы овладеть всеми навыками, необходимыми, чтобы стать опытным специалистом по данным».

Но хорошая новость:

«Вы можете начать свою карьеру, сосредоточившись на изучении нескольких навыков, которые необходимы для любого проекта Data Science».

Чтобы использовать этот практический подход, нам сначала нужно взглянуть на важную концепцию, которая поможет нам определить наши приоритеты на нашем пути к тому, чтобы стать специалистом по данным.

2. Введите принцип Парето.

Вильфредо Парето был итальянским инженером, социологом, экономистом, политологом и философом XIX века, который впервые описал то, что сейчас известно как правило 80/20 или принцип Парето.

Идея, лежащая в основе принципа Парето, заключается в том, что некоторые наблюдаемые явления следуют неравномерному распределению, при этом 80% результатов (или следствий) происходят от 20% причин.

Этот принцип соблюдался в различных областях, таких как экономика, эпидемии, вычисления, спорт, инженерия и многих других, иногда принимая экстремальные значения, такие как 90% / 10%, 95% / 5% или даже 99% / 1%.

Идея была синтезирована в великой книге Ричардса Кока« Принцип 80/20: секрет достижения большего с меньшими затратами », где автор описывает множество стратегий использования этого принципа для оптимизации нашей жизни, тратя время и энергию на то, на что действительно имеет значение.

Итак, возвращая эту идею в наш путь обучения науке о данных, если бы мы могли определить шаблон, соответствующий распределению Парето, возможно, мы могли бы использовать его в наших интересах.

3. Так что же состоит из традиционного распорядка Data Scientist?

Как вы, возможно, слышали от человека, имеющего хотя бы небольшой опыт работы в области науки о данных, не менее трех четвертей (иногда более 80%) вашего времени тратится на сбор, обработку и предварительную обработку данных. Другими словами, вам нужно потратить значительное количество времени только на организацию вашего набора данных. Я знаю, что некоторым специалистам по данным может повезти работать в среде, где данные хорошо каталогизированы и курируются, что означает, что они могут тратить больше времени на визуализацию данных и создание моделей и меньше на начальные шаги, описанные выше, но обычно это исключение из правил. правило.

В большинстве компаний данные хранятся в разных базах данных, и вам обычно приходится объединять таблицы с помощью SQL-запросов или API-интерфейсов для извлечения данных из разных источников. Затем данные организуются и исследуются с помощью Pandas (или R). На этом этапе вы позаботитесь о пропущенных значениях, выбросах и создадите набор данных, который можно будет использовать на следующих этапах анализа (визуализация данных и обучение модели). Это был бы идеальный сценарий, если бы вы точно знали структуру своих запросов к базам данных и API, и если бы все ваши данные были согласованы без пропущенных значений или выбросов.

На самом деле этот процесс занимает гораздо больше времени, чем вы ожидаете, поскольку вы итеративно возвращаетесь к сбору данных и много раз пререканиям, пока, наконец, не получите готовый набор данных.

4. Применение принципа Парето в процессе обучения науке о данных

Основываясь на том факте, что 80% времени Data Scientist тратится на сбор данных и организацию набора данных, мой совет для вас, начиная свою карьеру, независимо от вашего опыта, - сосредоточиться на овладении навыками программирования и обработки данных. , и извлечение данных.

Если вы изучаете Python, Pandas и SQL, вы, вероятно, сможете выполнять не менее 80% ежедневной работы специалиста по данным.

Возвращаясь к нашему первоначальному списку навыков, необходимых для того, чтобы стать специалистом по данным, из всего 12 навыков вам сначала нужно сосредоточиться на трех из них: программирование, SQL и обработка / предварительная обработка данных. Поскольку список можно было бы значительно расширить, если учесть другие необходимые технические и социальные навыки, правило 80/20 можно также применить для описания одного дня из жизни Data Scientist.

Одно небольшое замечание о моем мнении о том, почему вам следует выбирать Python над другими языками, такими как R, Julia или Scala. Причина, по которой я упомянул Python, заключается в том, что это самый популярный язык для науки о данных сегодня и отличный первый язык для всех, кто пытается научиться программировать, поскольку его кривая обучения, вероятно, одна из самых простых.

5. Постепенно повышайте свою уверенность

Большинство вводных курсов по машинному обучению показывают доступные алгоритмы для выполнения регрессии и классификации (контролируемое обучение) или кластеризации (неконтролируемое обучение). Попытки понять и освоить каждый из этих методов и узнать, когда их использовать, могут быть утомительными и не очень полезными. Не волнуйся! Хорошо знать, какие существуют методы и каковы основные приложения для каждого из них, но вы полностью поймете каждый из них только тогда, когда начнете использовать его в своих собственных проектах.

По мере развития навыков сбора и предварительной обработки данных следующие шаги (визуализация и выбор модели) можно будет выполнять с большей уверенностью. С практической точки зрения вы, вероятно, начнете работать с конкретной проблемой / вопросом, связанным с вашей компанией или исследовательским проектом. По мере того, как вы углубитесь в наборы данных и определите свою гипотезу, у вас будет время исследовать методы и алгоритмы машинного обучения, которые могут предложить вам лучшее решение. Это еще один аргумент в пользу того, почему вы должны в первую очередь сосредоточиться на обучении навыкам, необходимым для сбора и организации данных.

6. Более широкий взгляд на себя как на специалиста по данным.

Я хочу повторить, что цель этой статьи не состоит в том, чтобы убедить вас в том, что вам нужны только 3 упомянутых навыка, чтобы заниматься Data Science.

Если вы сначала сосредоточите свои силы на изучении Python, Pandas и SQL, вы сможете быстрее увидеть практические результаты и даже выполнять задачи, которые обычно выполняются инженерами данных и аналитиками данных.

И поскольку вы уже видите практические результаты приобретенных знаний, вы можете продолжить изучение остальных навыков из списка.

Как видно из классической «Иерархии потребностей науки о данных» (рис. 2), основу пирамиды составляют сбор данных с последующим перемещением / хранением и изучением / преобразованием данных. Эти навыки обычно связаны с работой инженера по данным, что свидетельствует о важности этой должности в текущих проектах Data Science.

Таким образом, без сильных базовых знаний навыков, связанных с обработкой данных и борьбой, вы (и ваша команда), вероятно, не сможете выполнить успешный проект Data Science.

6. Заключительное слово.

Как уже упоминалось в названии статьи, моя главная цель - помочь вам решить, какие навыки вам нужно сделать в первую очередь, когда вы начинаете изучать Data Science. Я знаю, что эта тема может быть противоречивой, поскольку мы наблюдаем множество различных способов стать специалистом по анализу данных. По моему личному опыту, вам определенно предстоит долгий путь, и оптимизация вашего обучения может быстрее предложить вам возможности трудоустройства. Я считаю, что прочная основа на навыках, упомянутых в статье, и относительное количество самодисциплины и преданности делу могут принести вам невероятные результаты раньше, чем вы ожидали.

Спасибо, что прочитали мою статью!

  • Вы можете найти другие мои статьи на моей странице профиля 🔬
  • Если вам понравилось и вы хотите стать Medium участником, вы можете использовать мою реферальную ссылку, чтобы поддержать меня 👍

Ресурсы