Наука о данных с нуля

Практический совет по изучению науки о данных с нуля

Оглавление

  1. Вступление
  2. Освойте Python или R Essentials прямо сейчас
  3. Практика 5–10 алгоритмов машинного обучения
  4. Объясните моделирование специалисту, не занимающемуся данными
  5. Резюме
  6. использованная литература

Вступление

Хотя может быть несколько подходов к науке о данных с нуля, я хотел дать свой взгляд на это с мыслью о том, что бы я сделал по-другому, если бы начал все сначала. В моем случае я начал с нуля, специализируясь в области, не относящейся к науке о данных, для начала получения степени бакалавра. После того, как я испытала эту первую карьеру, я тогда остановился на науке о данных и быстро изучил и применил столько, сколько мог, на своих текущих должностях в то время, которые имели какое-либо отношение к аналитике данных, науке о данных и кодированию. У меня не было четырехлетнего опыта в разработке программного обеспечения, поэтому я думаю, что мой подход к науке о данных в прошлом - это то, что может найти отклик у многих людей. С учетом вышесказанного, есть некоторые вещи, которые я бы сделал по-другому, но в целом я доволен тем, как начал свою карьеру в области науки о данных с нуля, и надеюсь, что смогу передать вам кое-какие мудрости.

Освойте Python или R Essentials прямо сейчас

Некоторые студенты или профессионалы имеют опыт разработки программного обеспечения или разработки программного обеспечения, и переход к аспектам программирования в науке о данных может быть легким. Тем не менее, есть еще много людей, у которых нет этого опыта, особенно если они действительно начинают с нуля. По моему опыту, я бросился изучать код, изучая статистику, одновременно изучая общие алгоритмы машинного обучения. Чтобы сделать это снова, я бы порекомендовал вам сосредоточиться только на программировании, не беспокоясь о науке о данных, до более позднего времени, в зависимости от вашей временной шкалы. Вы можете выбрать Python или R в качестве одного из основных языков программирования для начала, и обычно только один из них будет основным языком, с которым вы будете работать в своей карьере.

Помимо изучения основ Python и R в первую очередь, важно также изучить SQL.

Но давайте сосредоточимся на Python и R. Эти два языка на самом деле могут быть скорее предпочтением, чем требованием, поскольку некоторые компании позволяют использовать любой или даже другой язык. Однако я считаю, что эти двое играют важную роль в карьере в области науки о данных, а также в инструментах, которые используются в науке о данных. Например, существует бесконечное количество документации, библиотек, пакетов и руководств по науке о данных как в Python, так и в R. Я лично решил сосредоточиться на Python по разным причинам. Я считаю, что это хорошо работает при сотрудничестве с разработчиками программного обеспечения, с приложением, над которым вы, возможно, работаете, и с общим способом его написания.

Когда следует использовать Python поверх R?

  • если вы работаете с другими разработчиками программного обеспечения, скорее всего, они также используют Python
  • то, как вы изучаете концепции кода, можно применить и к другим языкам программирования (объектно-ориентированное программирование)
  • на мой взгляд более масштабируемый

Когда лучше использовать R вместо Python?

  • предпочтение библиотек визуализации
  • статистик
  • алгоритмы временных рядов
  • сосредоточены на исследованиях
  • сбор данных

В конечном итоге все сводится к предпочтениям, и это не только ваши предпочтения, но и предпочтения вашей компании - это означает, что они могут предпочесть вам использовать Python или R специально (в основном, потому что другие уже используют один вместо другого ).

Вы выиграете от более быстрого изучения Python или R разными способами:

  • можете применять библиотеки и пакеты проще и быстрее, когда вы в конечном итоге занимаетесь наукой о данных - это означает, что вы можете сосредоточиться на алгоритмах, когда они наиболее важны
  • можете применять код проще и быстрее, если вы занимаетесь наукой о данных
  • вам не придется возвращаться и продолжать изучать основы, как только вы продвинетесь по карьерной лестнице

Поэтапный способ обучения - это подход, который может быть выгоден для одних по сравнению с другими, но я считаю, что лучше учиться в шахматном порядке, потому что это может позволить вам сосредоточиться на одном аспекте науки о данных за раз, поэтому к тому времени что вы получаете работу, вы не хозяин ни в чем, а, напротив, хозяин всего.

Практика 5–10 алгоритмов машинного обучения

Существует бесчисленное множество алгоритмов машинного обучения, поэтому знать их все может быть непросто. Я бы рекомендовал начать с изучения наиболее распространенных, популярных и конкурентоспособных алгоритмов. Скорее всего, ваш начальник не скажет вам, какой алгоритм использовать, поэтому знание того, когда использовать какой, является ключевой частью вашей работы. Освоив 5–10 алгоритмов, вы сможете применять похожие алгоритмы к одному и тому же сценарию использования и увидеть преимущества использования одного над другим.

Вот некоторые вещи, которые следует учитывать при выборе конкретного алгоритма машинного обучения:

  • обучение и время вывода / предсказания
  • способ структурирования данных
  • хорошо ли справляется с числовыми и категориальными данными?
  • вы знаете свои целевые ярлыки, контролируются или неконтролируются данные / проблема?
  • один уже использовался в вашей компании, был ли он успешным?
  • сколько стоит тренироваться?
  • можете ли вы развернуть его как встроенный алгоритм, или его нужно будет адаптировать?
  • в какой отрасли вы работаете?
  • как часто вам нужно тренироваться и делать прогнозы?

Теперь, когда вы знаете, как кодировать на Python или R, вам нужно будет освоить алгоритмы машинного обучения, и теперь, когда вы знаете, что следует учитывать, мы можем подумать о некоторых из самых популярных алгоритмов по разным причинам:

* not in any paritulary order
1. Logistic Regression (a simpler algorithm, however, I have not seen many use this one in practice, moreso in academia)
2. Random Forest
3. LightGBM
4. XGBoost
5. CatBoost
6. K-Means
7. K-Nearest Neighbors 
8. Support Vector Machines

Скорее всего, один из этих алгоритмов может решить большинство ваших сценариев использования науки о данных. Конечно, есть и другие важные, но основная часть начинать с нуля - это знать те, которые популярны, потому что они будут хорошо задокументированы, включая бесконечные примеры, на которых можно учиться.

Объясните моделирование специалисту, не занимающемуся данными

Этот навык вы часто будете применять как специалист по данным. В этом отношении, конечно, важно, однако, объяснение или обучение также могут позволить вам учиться наилучшим образом. Объясняя что-то, вы можете быстро понять, что вы делаете и не знаете, поэтому, если вы начнете практиковать это рано, вы сможете успешно пройти через науку о данных от начала до конец не только себе, но и другим.

Резюме

Хотя эта статья может не охватывать все, что вам нужно сделать, чтобы начать науку о данных с нуля, она дает хорошее представление о шагах и концепциях, которым вы можете следовать, чтобы стать наукой о данных с нуля. Кодирование и программирование важны, и им иногда можно пренебречь в процессе изучения науки о данных, где в центре внимания находятся алгоритмы машинного обучения. Оба важны, и вы должны освоить оба, прежде чем получить работу в области науки о данных. Последний совет прост, но жизненно важен для вашего обучения. Объяснение концепций науки о данных и общепринятых практик специалистам, не занимающимся данными, может позволить вам в простой для понимания форме обобщить все полученные знания как для себя, так и для других.

Двумя другими важными этапами науки о данных являются статистика и SQL, о которых я подробно не подробно рассказывал в этой статье, но они по-прежнему имеют решающее значение для практики.

Подводя итог, вот несколько шагов, которые вы можете предпринять, чтобы начать анализ данных с нуля:

Master Python or R Essentials Now
Practice 5–10 Machine Learning Algorithms
Explain Modeling to a Non-Data Scientist
* as well as practice Statistics and SQL

Надеюсь, моя статья была вам интересна и полезна. Пожалуйста, не стесняйтесь комментировать ниже, если вы согласны с этими шагами, чтобы начать науку о данных с нуля - почему или почему нет? Какие еще шаги вы можете предпринять или предприняли, чтобы сейчас добиться успеха в науке о данных?

Не стесняйтесь проверять мой профиль и другие статьи, а также обращаться ко мне в LinkedIn.

использованная литература

[1] Фотография Марка Эдера на Unsplash, (2017)

[2] Фото Алекса Чумака на Unsplash, (2021 г.)

[3] Фото Luca Bravo на Unsplash, (2016)

[4] Фото Standsome Worklifestyle на Unsplash, (2020)