Что бы я сделал иначе

Я начал свое путешествие в области науки о данных с получения профессионального сертификата IBM Data Science Professional на Coursera. Мне потребовалось почти два года, чтобы получить работу специалиста по данным.

После того, как я начал работать специалистом по обработке данных, мне не потребовалось много времени, чтобы выяснить, что я делал правильно и неправильно во время своего учебного пути. То, что я упустил из виду, стало кристально ясным.

Я не уверен, что это из-за облегчения от того, что наконец-то устроился на работу или работает в производственной среде с реальными данными. Однако могу заверить вас, что я бы поступил иначе, если бы мне пришлось начать все сначала.

В этой статье я напишу о 3 уроках, которые я извлек после того, как начал работать специалистом по данным. Некоторые из вас могут знать об этих уроках, но я уверен, что найдутся начинающие специалисты по данным, которым они могут пригодиться.

SQL - необходимость

Топливо в науке о данных - это данные. Без надлежащих, хорошо обслуживаемых и легкодоступных данных мы мало что сможем сделать. Хотя базы данных NoSQL становятся все более распространенными, большинство компаний по-прежнему используют реляционные базы данных для хранения данных.

SQL - это ключ к реляционным базам данных. SQL используется не только для доступа и извлечения данных, но и как эффективный инструмент анализа данных. Универсальные и гибкие функции SQL позволяют выполнять анализ данных при их извлечении.

Мы также можем использовать if для фильтрации и преобразования данных, чтобы мы получали только те данные, которые нам нужны. Это экономит и память, и вычисления.

Я изучил SQL во время своего путешествия по науке о данных, но этого было недостаточно. Считаю себя промежуточным пользователем SQL. Если бы я начал все сначала, я бы определенно стал продвинутым пользователем SQL.

Я узнаю о возможностях SQL и о том, насколько он важен для экосистемы науки о данных. Чтобы стать продвинутым пользователем, вам нужно много практиковаться.

Git - это способ сотрудничать с вашими коллегами

Git - это система контроля версий. Он поддерживает историю всех изменений, внесенных в код в проекте. Изменения хранятся в специальной базе данных, называемой «репозиторием», также известной как «репо».

Два основных преимущества использования Git при разработке программного обеспечения:

  • Отслеживание изменений и обновлений. Мы можем видеть, кто какие изменения внес. Git также сообщает, когда и почему было внесено изменение.
  • Позволяет работать совместно. Проекты разработки программного обеспечения обычно требуют совместной работы множества людей. Git предоставляет разработчикам систематический способ сделать это. Таким образом, разработчики сосредотачиваются на проекте, а не на длительных сеансах общения между другими разработчиками.

В типичном проекте по науке о данных вы, вероятно, будете работать со многими людьми, включая инженеров по данным, разработчиков программного обеспечения или других специалистов по данным. Первый и самый главный способ связи - через git.

Вы должны хорошо разбираться в командах и рабочем процессе git, чтобы сотрудничать с коллегами. Хотя службы хостинга, такие как GitHub и GitLab, предоставляют простые интерфейсы для использования git, я также рекомендую изучить команды git bash.

Python - это не только о пандах

Pandas - отличный инструмент для анализа и обработки данных. Я использую с первого дня, когда начал свой путь в науке о данных. Я также использовал многие другие библиотеки Python в экосистеме науки о данных, такие как NumPy, Seaborn, Matplotlib, Scikit-learn и т. Д.

Все они очень полезны, и я определенно предлагаю их изучить. Однако Python - это не только библиотеки для анализа данных. Мне кажется, я слишком много сосредоточился на изучении этих библиотек. В результате я не смог улучшить свои навыки Python как языка общего назначения.

Вы можете возразить, что специалист по данным не является разработчиком программного обеспечения. Однако большинство компаний попросят вас написать базовые сценарии для реализации проектов. Кроме того, вы должны уметь читать и понимать код, написанный другими специалистами по данным или разработчиками программного обеспечения.

Это не только для Python. Какой бы язык программирования вы ни выбрали для изучения науки о данных, убедитесь, что вы охватываете не только библиотеки науки о данных.

Заключение

Три урока, которыми я поделился в этой статье, - это то, что я понял после работы в качестве специалиста по данным. Я знал, что SQL, Git и Python важны, и потратил время на их изучение, но этого было недостаточно. Мне следовало больше сосредоточиться на этих предметах.

Я хочу подчеркнуть, что это не единственное, чему вам нужно научиться. Фактически, это то, что вы можете упустить из виду.

Поскольку наука о данных не очень хорошо развита в традиционной системе образования, обучение проходит в основном через сертификаты и курсы MOOC. Типичные сертификаты, связанные с наукой о данных, обычно относятся к библиотекам. Таким образом, честолюбивые специалисты по данным, которые следуют процессу самообучения, как я, вряд ли будут уделять достаточно внимания инструментам, упомянутым в этой статье.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.