Как стать Data Scientist?

Чтобы стать специалистом по обработке и анализу данных, нужны приверженность и настойчивость!

Введение

Я сам долго путался и наделал много ошибок при выборе правильного направления в области Data-Science. Я надеюсь, что к концу этого блога я помогу многим начинающим Data-Scientist иметь четкий путь, чтобы выбрать лучший путь в обучении и развитии в области науки о данных.

В 21 веке развитие компьютерных наук, разработка интеллектуальных машин и создание огромных объемов данных привели к развитию новых областей исследований, наук о данных и машинного обучения. От простых задач, таких как прогнозирование продаж в отрасли, до амбициозных проектов, таких как автомобили с автоматическим управлением, все становится возможным благодаря использованию алгоритмов и методов науки о данных.

Я даже буду перечислять лучшие курсы, оцененные и созданные ведущими университетами по всему миру (Университет Торонто, Массачусетский технологический институт и т. д.) для каждого раздела в качестве подробного объяснения.

Какова именно роль специалиста по данным?

В кратком обзоре специалист по данным — это профессионал, который работает с большим объемом данных и извлекает аналитические идеи и информацию. Они сообщают о своих выводах высшему руководству, руководству и клиентам. Таким образом, компании могут извлечь выгоду из принятия наиболее обоснованных решений для стимулирования роста своего бизнеса, а прибыльность зависит от контекста отраслей.

Как специалист по данным, вы сталкиваетесь с множеством различных типов проблем. Чтобы быть компетентным, вы должны иметь прочную основу в математике, статистике и программировании. Вам нужно знать, когда использовать определенные методы и алгоритмы в зависимости от проблемы и данных. В конце концов, вам часто нужно представить результаты и методы руководителям и менее технической аудитории (один из самых сложных путей).

Какие шаги нужно предпринять, чтобы стать специалистом по данным (бесплатно)?

Я уверен, что многие из нас сталкивались со статьей из Harvard Business Review еще в 2012 году. Ученый по данным — это профессионал, известный как самая привлекательная профессия 21 века. Идея здесь в том, что будет постоянный поток аналитических талантов, которые потребуются во всех отраслях, где компании собирают и используют данные для получения конкурентных преимуществ и имеют одну из самых требовательных и популярных профессий во всем мире. .

Работа Data-science звучит для вас весело и интересно? Тогда отлично. Это подходящее время, чтобы начать учиться и освоить навыки и этапы, необходимые в области науки о данных. Ниже я перечислю путь, который поможет вам освоить науку о данных и получить работу мечты.

Я опишу путь в 9 этапов ниже, которые заключаются в следующем:-

  1. Основы математики и статистики
  2. Инструменты науки о данных
  3. Основы науки о данных
  4. Машинное обучение
  5. Развертывание модели и разработка программного обеспечения
  6. Инструменты аналитики больших данных
  7. Важность создания резюме/портфолио
  8. Основные социальные навыки
  9. План интервью и советы
  10. Вывод

Давайте начнем с подробного изучения каждого шага и лучших курсов для подражания:-

1.Основы математики и статистики

Математика Основные понятия:

  • Линейная алгебра
  • Системы линейных уравнений
  • Исчисление
  • Большой О
  • Вероятность

Статистика Основные понятия:

  • Исследовательская графика, статистика
  • Описательная статистика
  • Выведенный статистика
  • Проверка гипотезы

Математика является основой всех ключевых процессов науки о данных. Он включает в себя статистику, линейную алгебру, дифференциальное исчисление, дискретную математику и т. Д. Для начала мы начнем с базовой математики, связанной со статистикой, исчислением и линейной алгеброй, это хорошее начало. Это важно для специалиста по данным, чтобы понять процесс, лежащий в основе работы различных алгоритмов.

К концу этого этапа у нас будет сильный практический опыт в математике и статистике, необходимых для науки о данных.

Начните со следующих ресурсов: -

  1. Введение в математику (Академия Хана)
  2. Статистика (Coursera)

2. Инструменты науки о данных

На этом этапе мы поговорим о необходимых инструментах, необходимых для начала работы с наукой о данных. Прежде чем приступить к работе с моделями науки о данных и машинного обучения, нам необходимо понять три основные вещи.

Требуются три основных инструмента: -

  • Базы данных (SQL, PostgreSQL)
  • Программирование на языке python/R
  • Инструменты облачных вычислений на любой платформе (AWS, GCP, Azure, Oracle)

Специалисты по данным должны быть знакомы с различными наборами инструментов для работы с данными в различных средах и платформах. Набор инструментов должен содержать комбинацию SQL, командной строки, кодирования и облачных инструментов.

Вот краткое описание того, как используется каждый инструмент:-

  • Для извлечения данных и манипулирования ими из реляционных баз данных SQL является основным языком, используемым практически везде.
  • Для общих целей программирования (т. е. функций, циклов for, итераций и т. д.) Python — хороший выбор, поскольку он уже упакован со многими библиотеками (т. е. для визуализации, машинного обучения и т. д.).
  • Для дополнительного повышения знание командных строк дает дополнительные преимущества, особенно для выполнения заданий в облачных средах.
  • Инструменты облачных вычислений помогают развертывать различные модели машинного обучения, приложения и веб-сайты с требуемым объемом хранилища и функциями.

Начните со следующих ресурсов: -

  1. Учимся программировать: основы (Coursera)
  2. Программирование на R (Data Camp)
  3. Базы данных: введение в реляционные базы данных (edX)

3. Основы науки о данных

На этом этапе мы начнем с основ Data-Science. сначала выберите желаемый язык программирования. Python — хороший выбор, так как он уже упакован со многими библиотеками, которые я лично предпочел бы. отсюда вы можете почерпнуть понятия об обработке/обработке данных (т. е. об импорте данных, агрегации, сводных данных и обработке отсутствующих значений).

После этого вас ждет самая интересная часть изучения ваших данных с помощью визуализации данных (т. Е. Гистограмм, гистограмм, круговых диаграмм, тепловых карт и визуализаций карт).

Начните со следующих ресурсов: -

  1. Наука о данных от А до Я™: Наука о данных в реальной жизни (Udemy)
  2. Введение в анализ данных (Udacity)
  3. Визуализация данных (Coursera)

4.Машинное обучение

Изучите теорию и применение алгоритмов машинного обучения. Затем примените концепции, которые вы изучите, к реальным данным. У вас есть выбор между прикладным машинным обучением и экосистемой больших данных. Обратите внимание, что вы всегда можете вернуться, чтобы освоить другой путь позже. В моем случае я решил сначала узнать о прикладном машинном обучении. Он охватывает аспект построения модели машинного обучения от начала до конца. исследование данных для развертывания модели. Алгоритмы дерева решений являются одним из основных важных и мощных инструментов в области машинного обучения.

С другой стороны, Глубокое обучение — это подмножество машинного обучения, которому можно научиться, если у нас есть сильные практические навыки машинного обучения, статистики и основ науки о данных.

Начните со следующих ресурсов: -

  1. Машинное обучение (Coursera)
  2. Введение в машинное обучение (edX)
  3. Креативные приложения глубокого обучения (kadenze)
  4. Глубокое обучение от А до Я™ (Udemy)

5. Развертывание модели и разработка программного обеспечения

Создание модели машинного обучения должно быть интересным для всех нас, но никому другому это не поможет, если только его нельзя будет развернуть в производственной среде. Как реализовать развертывание машинного обучения — сложная задача. Процесс использования обученной модели машинного обучения и предоставления ее прогнозов пользователям или другим системам называется развертыванием.

Думая о развертывании модели с точки зрения инженера-программиста, а не специалиста по данным, вы упростите процесс развертывания модели.

Развертывание полностью отличается от рутинных задач машинного обучения, таких как разработка функций, выбор модели или оценка модели. Таким образом, развертывание не очень хорошо понимают специалисты по обработке и анализу данных и инженеры по машинному обучению, у которых нет опыта разработки программного обеспечения или DevOps.

Поэтому мы говорим, что каждый специалист по данным должен хорошо знать несколько навыков разработки программного обеспечения, таких как DevOps, и, к счастью, эти навыки не очень сложны и могут быть изучены специалистом по данным на практике. Практики машинного обучения должны понимать, как максимально просто и эффективно развертывать свои модели. Первым шагом в определении того, как развернуть модель, является понимание того, как конечные пользователи должны взаимодействовать с прогнозами этой модели.

Начните со следующих ресурсов: -

  1. Тестирование ПО (Udacity)
  2. Контроль версий с помощью Git (Udacity)

6. Инструменты анализа больших данных

Самая важная причина, по которой изучение больших данных — это полезное и (иногда) веселое вложение вашего времени. Сфера больших данных и анализа данных в целом полна головоломок, которые нужно решить, и они значительно улучшат ваши аналитические навыки и мышление. Основные области больших данных связаны со статистикой и навыками решения проблем. Даже если вы не собираетесь делать карьеру в сфере больших данных, эти навыки пригодятся вам в повседневной жизни. Я даже улучшу вашу карьеру в области науки о данных. Инструменты, используемые в больших данных, такие как Hadoop, MapReduce, Apache Hive, Spark Streaming, играют жизненно важную роль в науке о данных.

Начните со следующих ресурсов: -

1.Приручение больших данных с помощью Apache Spark и Python

7. Создание резюме и портфолио

Несмотря на то, что резюме имеет значение, портфолио, подтверждающее ваши навыки работы с данными, может творить чудеса с перспективами трудоустройства. Даже если у вас есть рекомендации, важна возможность показать работодателям, что вы можете сделать, а не просто сказать им, что вы можете что-то сделать. Один из лучших способов создать портфолио и резюме для новичков — добавить различные проекты.

Если у вас нет опыта работы, связанного с наукой о данных, лучший вариант здесь — рассказать о проекте по науке о данных, над которым вы работали.

Типы проектов для включения в портфолио?

Лучшие проекты портфолио не столько связаны с причудливым моделированием, сколько с работой с интересными наборами данных. Многие люди делают что-то с финансовой информацией или данными Twitter; они могут работать, но данные по своей сути не так уж интересны.

Проект не завершен, когда вы публикуете его публично. Не бойтесь продолжать добавлять или редактировать свои проекты после их публикации. Проекты могут быть бесконечным и обучающим процессом.

Резюме по науке о данных — это место, где вы можете сосредоточиться на своих технических навыках. Ваше резюме - это шанс представить свою квалификацию и соответствовать этой конкретной роли. Рекрутеры и менеджеры по найму просматривают резюме очень быстро, и у вас остается совсем немного времени, чтобы произвести впечатление. Улучшение вашего резюме может увеличить ваши шансы попасть на собеседование. Вы должны убедиться, что учитывается каждая строка и каждый раздел вашего резюме.

Хорошее резюме Data-Science должно следовать нескольким важным ключевым моментам и аспектам:

  • Длина: пусть это будет просто и не более одной страницы. Это дает вам наибольшее влияние для быстрого взгляда.
  • Цель: не включать его. Они не помогут вам отличить себя от других людей. Попробуйте включить по крайней мере два.
  • Навыки. Не оценивайте свои навыки цифрами. Если вы хотите оценить свои навыки. Попробуйте использовать такие слова, как знакомый или опытный. Перечислите технические навыки, которые упоминаются в описании работы. Порядок, в котором вы перечисляете свои навыки, может подсказать, в чем вы лучше всего разбираетесь.
  • Проекты. Не указывайте общие проекты или домашние задания. Они не так уж помогают отличить вас от других соискателей. Перечислите проекты, которые являются уникальными. не забудьте указать ссылки.
  • Портфолио. Укажите свое присутствие в Интернете. Самый простой — это профиль LinkedIn. Это как расширенное резюме. Профили GitHub и Kaggle могут помочь продемонстрировать вашу работу. Заполните каждый профиль и включите ссылки на другие сайты. Заполните описания для ваших репозиториев GitHub. Включите ссылки на свой блог по обмену знаниями (Medium, Quora).
  • Опыт: чем вы занимаетесь, если у вас нет опыта работы? Сосредоточьте свое резюме на независимых проектах, таких как завершающие проекты, независимые исследования, дипломная работа или конкурсы Kaggle. Это заменители опыта работы, если у вас нет опыта работы, чтобы указать его в своем резюме.

8. Основные социальные навыки

Большинство рыночных тенденций, мнения ведущих бизнес-лидеров и отраслевые данные свидетельствуют о том, что социальные навыки имеют одинаковое значение.

  • Критическое мышление

Специалисты по данным могут объективно анализировать вопросы, гипотезы и результаты и понимать, какие ресурсы имеют решающее значение для решения проблемы при наличии критического мышления. Они также могут смотреть на проблемы с разных точек зрения и точек зрения.

  • Общение

Специалисты по обработке и анализу данных могут объяснить, что означают идеи, основанные на данных, с точки зрения бизнеса, и передать информацию таким образом, чтобы подчеркнуть ценность действия. Они также могут показать процесс исследования и предположения, которые привели к выводу.

  • Решение проблем

Можно определить возможности и объяснить проблемы и решения с навыками решения проблем. При наличии навыков решения проблем специалисты по данным будут знать, как подходить к проблемам, определяя существующие предположения и ресурсы, надевать шляпу детектива и определять наиболее эффективные методы для получения правильных ответов.

  • Бизнес-знания

В современном мире высокой конкуренции, чтобы иметь преимущество перед своими конкурентами, компании должны обеспечить, чтобы их специалисты по данным понимали бизнес и его особые потребности, а также понимали, какие организационные проблемы необходимо решить. Они могут преобразовывать данные в результаты, которые работают для организации.

9.Интервью

Процесс собеседования должен состоять в основном из следующих трех этапов:

  • Технические вопросы. Интервью включает в себя множество технических вопросов. Большая часть работы по науке о данных включает технические задачи по анализу данных и статистики. Рекрутеры задают технические вопросы, чтобы получить представление о практических технических возможностях кандидатов. Это включает в себя вопросы по математике, статистике, программированию и машинному обучению.
  • Вопросы по конкретным проектам.Проекты являются важной частью работы специалиста по данным. Выделение сегмента проектов в интервью является ключевым моментом для младшего специалиста по данным, чтобы получить работу. Соискателям науки о данных рекомендуется сосредоточить свои усилия на проектах, основанных на компьютерном зрении. Помимо работы над этими проектами, для кандидатов также важно получить представление о деталях проекта.
  • Навыки межличностного общения. Интервьюеры часто пытаются получить более глубокое представление о технических способностях кандидата и знаниях о проектах. Они пытаются анализировать soft skills кандидатов, хотя специалисты по данным часто не воспринимают их всерьез. Наличие социальных навыков имеет решающее значение для общения с другими товарищами по команде, а также для обмена данными с заинтересованными сторонами.

10. Заключение

В этой дорожной карте науки о данных мы увидели ключевые столпы науки о данных и соответствующие ресурсы, чтобы начать работу с ней. Это растущий список, так как каждый день появляются новые инструменты и технологии для различных вариантов использования в науке о данных. Пожалуйста, дайте нам свои мысли в разделе комментариев, чтобы добавить больше информации в статью.

Я надеюсь, что вы сочли полезным. Я планирую делиться другими проектами, над которыми я работаю, или любыми другими мыслями на Medium! Если у вас есть какие-либо вопросы или вы хотите, чтобы я рассказал о чем-то конкретном в будущем, дайте мне знать через мою контактную страницу ниже, и вы даже можете связаться со мной через мою платформу социальных сетей, которую я также упомяну ниже.

Спасибо за чтение!

Контактная страница

(LinkedIn, Твиттер)