Как стать специалистом по данным?

Поисковая система Google ежедневно обрабатывает около 3,5 миллиардов поисковых запросов. Мое выделенное полужирным шрифтомпредложение, написанное выше, несомненно, является одним из важных факторов, влияющих на это число… :)

Наука о данных — модное слово на рынке, и все мы, очевидно, заинтересованы в том, чтобы узнать о ней больше. Некоторые из работающих профессионалов прилагают огромные усилия, чтобы получить необходимый набор навыков, которые необходимо указать в их резюме, чтобы называться «резюме специалиста по данным», согласно их «друзьям специалиста по данным». ".

Имея почти десятилетний опыт работы в отрасли в области науки о данных и много работая над обучением и наставничеством людей в области науки о данных, я также получаю эти запросы отовсюду.

Когда дело доходит до обучения науке о данных, я не верю в модель «один для всех». Причина в том, что путь обучения науке о данных должен быть персонализированным в зависимости от его текущего набора навыков. Приведем пример: если специалист по статистике спросит меня о пути обучения для науки о данных я бы посоветовал ему/ей запачкать руки знаниями в области программирования/навыками кодирования/базами данных/SQL и т. д. С другой стороны, если выпускник информатики задаст мне аналогичный вопрос, я бы посоветовал ему/ей получить хорошее понимание статистики/математики/гипотез/теории вероятностей и т. д.

Тем не менее, прежде чем перейти к этому шагу принятия решения о том, как изучать науку о данных, я предлагаю задать себе несколько вопросов, которые помогут вам понять «Подходит ли вам наука о данных??».

Самое первое, на что вы должны обратить внимание, — существует ли корреляция между тем, что вы делаете в настоящее время, и тем, что происходит в области науки о данных/аналитики/машинного обучения?

Предполагая, что вы начинаете с нуля, позвольте мне сказать проще: «Машинное обучение — это способ заставить машины учиться на данных». Чтобы это обучение произошло, данныеи методологии

Вы можете обратиться к этому видео на YouTube от Эндрю Н.Г., чтобы лучше понять машинное обучение

Лекция 1.1 — Введение. Что такое машинное обучение — [Машинное обучение | Эндрю Нг ]

Подводя итог этой части, скажу, что ваша жизнь как специалиста по данным будет вращаться вокруг «данных» и «методов», используемых для обучения машин. Следовательно, если вы стремитесь стать специалистом по данным, ваше отношение к данными кодированиюдолжно быть высоким.

Что касается пути обучения науке о данных, он должен быть персонализирован, однако, если мне нужно дать общую структуру вокруг него, которая может помочь людям начать свое путешествие, я буду более чем счастлив.

Одна из важных вещей, которую необходимо здесь обеспечить, — это охват нескольких вещей, перечисленных ниже:

  • SQL. Это один из самых важных навыков, которым вы должны владеть, если хотите стать специалистом по данным. Чтобы улучшить свои навыки SQL и даже изучить SQL с самого начала, необходимы усилия. Существует множество доступных веб-сайтов, на которых вы можете выполнять SQL-запросы и практиковаться. w3schools — одна из моих любимых школ для начинающих, хотя их гораздо больше. Ссылка на w3schools здесь. Если вы считаете себя уровнем выше новичка, вы можете установить любую СУБД на свой компьютер и поэкспериментировать с наборами данных. Ссылка на хорошую СУБД с открытым исходным кодом MYSQL находится здесь. Этот установщик поможет вам установить все необходимые компоненты.
  • Кодирование/Алгоритм. Вы можете иметь опыт работы с программированием или без него. Язык R в любом случае должен быть частью вашего резюме по науке о данных. Для людей, не занимающихся программированием, хорошая новость заключается в том, что R относительно легко выучить. Вы можете установить R Studio (один из самых востребованных инструментов в отрасли) и начать практиковать язык R. Несколько полезных постов о процессе установки R Studio. Пожалуйста, обратитесь по ссылке здесь для более подробных шагов. Это довольно легко сделать. Кроме того, если вы пока не хотите устанавливать R and R studio, вы также можете попрактиковаться онлайн. Обратитесь по этой ссылке. Эта книга, доступная бесплатно, поможет вам начать испачкать руки в R
  • Статистика. Статистика — это один из навыков, который нельзя игнорировать, прежде чем приступить к изучению данных. Чтобы сделать ваше путешествие более плавным и предполагая, что вы новичок, я советую вам прочитать книгу ISLR. Убедитесь, что вы прочитали эту книгу хотя бы один раз, прежде чем переходить к следующему шагу. Цель книги ISLR — дать введение в методы статистического обучения. Он предназначен для студентов старших курсов бакалавриата, магистрантов и аспирантов нематематических наук. В этой книге также есть практические материалы по R, которые помогут вам понять статистические концепции и улучшить навыки работы с R.
  • Визуализация. Вы также должны хорошо разбираться в данных с использованием различных методов, таких как диаграммы, графики, распределение и т. д. В этой части постарайтесь хорошо освоить библиотеки R и Python, которые поддерживают визуализацию. Например — ggplot2 в R и matplotlib/seaborn в python. Если вы можете получить определенные инструменты визуализации, такие как Power BI, Tableau и т. д., это дополнительное преимущество.
  • Сборка модели —Аааа!! Итак, вы владеете языком запросов, R-кодами и понимаете статистику, поэтому вы имеете право прикоснуться к своему первому варианту использования в науке о данных. Поздравляем!!!! Не прекращайте обучение ни в одной из вышеупомянутых областей из всех имеющихся у вас источников, однако параллельно начните создавать некоторые простые модели машинного обучения, такие как линейная регрессия, логистическая регрессия, деревья решений и т. д. Вы найдете пакеты в R, который будет запускать эту модель для вас. Пожалуйста, попытайтесь понять, что происходит внутри, когда вы запускаете эти модели на своих данных. Например, вы должны быть в состоянии объяснить R квадрат и скорректированный R квадрат, если вы используете модель линейной регрессии. Не слишком полагайтесь на встроенную библиотеку. Существует несколько веб-сайтов, где вы можете найти данные для практики своего обучения. См. ссылка 1 и ссылка 2

Как только вы начнете понимать, как запускать модель машинного обучения, перейдите на разные форумы, где несколько человек работают над одним и тем же набором данных. Kaggle, будучи одной из хороших платформ, вы можете начать с нее. Создайте бесплатную учетную запись и начните практиковаться на предоставленных данных. Самое важное, что нужно узнать на этой платформе, это что другие делают с теми же данными? Как они подходят к одной и той же постановке задачи? Как они используют функции? Способны ли они думать по-другому? Как? Почему? Пожалуйста, позвольте себе переварить эти знания. Помните, обучение — это постепенный процесс.

Если вы правильно и регулярно выполняете описанные выше шаги и можете ответить на приведенные ниже вопросы, вы можете включить науку о данных в качестве набора навыков в свое резюме.

Что вы сделали за весь процесс построения модели?

Почему вы сделали тот или иной шаг в построении модели, какова его юзабилити?

Как вы улучшили свою модель?

Чем ваша модель полезна для бизнеса?

Обучение — это всегда непрерывный постепенный процесс, поэтому продолжайте практиковаться, продолжайте учиться, продолжайте совершенствоваться. В мире науки о данных всегда появляются новые задачи и концепции. Будьте готовы к этому.

Желаю вам всего наилучшего!

Спасибо за прочтение, поделитесь с друзьями, если вам понравилась история.

Вы можете присоединиться к моей группе Facebook Развернуть науку о данных, где я продолжаю наставлять людей здесь.

Вы можете присоединиться ко мне на LinkedIn здесь

Ваше здоровье

Аман([email protected])