Специалисты по обработке данных часто реализуют академические / хобби-проекты с использованием чистых, структурированных данных с использованием простого подхода. Хотя я согласен с тем, что лучше всего начинать с простых наборов данных, эти проекты нигде не связаны с реальным сценарием, и часто нам трудно найти работу с этими проектами. Компании будут искать более подходящего кандидата для своего бизнеса, чем те инструменты и технологии, с которыми вы работали. Если вы можете сделать более реалистичный проект с помощью инструментов и языков, тогда история вашего проекта будет соответствовать сценарию реальных данных! Если вы пока согласны со мной, то приступим.

Советы по поиску работы в Data Science: Ссылка

Давайте поговорим об идеях проекта, которые включают;

  1. Смысл продукта
  2. Несколько источников данных
  3. Готово к развертыванию
  4. Интеграция с инструментами ETL и DW
  5. Неструктурированные данные
  6. Помогите малому бизнесу расти

Смысл продукта

Специалисты по данным в продуктовой компании обычно работают над прогнозированием и установлением целей продуктовой группы, проектированием и оценкой экспериментов, мониторингом ключевых показателей продукта, пониманием коренных причин изменений в метриках, построением и анализом информационных панелей и отчетов, построением ключевых наборов данных для расширения возможностей эксплуатации. исследовательский анализ, оценка и определение показателей.

Знание KPI, показателей, A / B-тестирования и полное представление о продукте становится важным. Если вы ориентируетесь на продуктовые компании, вам следует выполнить проект, который включает KPI, показатели, A / B-тестирование и взаимодействие с продуктом. Вы должны быть в состоянии ответить на эти вопросы через свой проект;

  • Как бы вы создали модель для прогнозирования этого показателя?
  • Как бы вы протестировали новую функцию в продукте?
  • Что вы пытаетесь достичь? Какую проблему вы пытаетесь решить, используя свои данные?

Несколько источников данных

В реальном сценарии клиенты / компании имеют данные повсюду. Было бы лучше понять, как извлекать, преобразовывать и объединять все различные источники данных для лучшего использования и прогнозов. Работа только с CSV-файлом ограничит ваши возможности и не даст четкого представления о реальном сценарии дела.

Работайте над проектом с несколькими источниками, так как это необходимо для современного бизнеса и аналитики, но это может привести к проблемам с качеством данных, если вы не будете осторожны. Благодаря такому подходу вы узнаете, как справляться,

  • Неоднородность данных
  • Интеграция источников данных
  • Проблемы с масштабированием
  • Избыточность данных

Понимание этих проблем и их решение сделает вас лучшим специалистом по данным.

Готово к развертыванию

Развертывание модели является частью работы специалиста по данным, поскольку система может делать прогнозы в реальном времени, вызывая модель машинного обучения. Когда проект машинного обучения развертывается в производственной среде, мы должны отслеживать производительность и создавать систематизированные инструменты, которые могут справиться с ухудшением производительности и найти правильный тип данных для возврата на более ранние этапы жизненного цикла машинного обучения, чтобы переобучить и обновить модель, чтобы задействовать в CI / CD (непрерывная интеграция и непрерывное развертывание). Самая важная часть - обеспечить систематический поток данных на более ранние этапы.

Чтобы понять развертывание машинного обучения, вы можете попытаться развернуть окончательную модель на S3 и вызвать ее из ETL / Snowflake для выполнения прогнозов. Кроме того, попробуйте использовать amazon sagemaker вместо jupyter notebook для кодирования, если вы не новичок. Эти интеграции позволят вам понять, как машинное обучение работает в больших масштабах и как происходит прогнозирование в реальном времени.

Интеграция с инструментами ETL и DW

Когда вы смотрите на крупномасштабный процесс машинного обучения, понимание роли ETL, DB и DW становится очень важным для специалиста по данным. Роль ETL или DW определенно принадлежит инженеру по данным. Тем не менее, некоторые компании требуют, чтобы специалист по анализу данных понимал и внедрял их. Независимо от этого, знание основ ETL, DW и DB поможет вам написать лучший код для интеграции. Вся система машинного обучения имеет больше смысла.

Вы можете создать проект, в котором вы выполняете извлечение, преобразование и загрузку в инструменте ETL, а затем загружаете чистые данные в блокнот / sagemaker для построения моделей и выполнения прогнозов. Это поможет вам справиться с проблемами интеграции и конвейерной обработки, о чем стоит знать. Вы также можете использовать AWS или Snowflake, чтобы понять роль этих инструментов в мире данных.

Неструктурированные данные

Неструктурированные данные - это информация, которая не определена заранее. Это может быть много текста, например открытые ответы на опросы и разговоры в социальных сетях, а также могут быть изображения, видео и аудио. Реальные данные обычно неструктурированы, и эти данные не нуждаются в предварительной обработке и очистке. Результаты неструктурированных данных гораздо ценнее, если их правильно проанализировать.

Работа над проектом с неструктурированными данными поможет вам понять важность очистки и предварительной обработки данных для целей моделирования. Эти неструктурированные данные часто игнорируются из-за их сложности; воспользуйтесь этой возможностью и узнайте, как работать с такими данными. Он содержит ценную информацию, которая может способствовать развитию бизнеса.

Помогите малому бизнесу расти

В такие сложные времена нужно, чтобы каждый был вовлечен и помогал, насколько это возможно. Работая над академическим проектом или хобби, попробуйте обратиться к местному бизнесу, который собирает достаточно данных, чтобы делать прогнозы и рисовать закономерности. Эти результаты помогут им лучше разместить товар в проходе или продать его со скидкой. Узнай об искусственном интеллекте навсегда и постарайся помочь кому-то или бизнесу своими навыками.

Проекты приобретают решающее значение, если вы подаете заявку как новичок или меняете сферу деятельности. Выполнение качественных проектов позволит вам испытать различные части данных в реальном сценарии, что будет преимуществом при поиске работы. Кроме того, эти проекты помогут вам понять влияние науки о данных на бизнес. После завершения проекта отправьте его в GitHub и напишите небольшой отчет, который объяснит ваш мыслительный процесс и путь к нему.

Вы также можете посетить блог о поиске работы в области науки о данных:

Https://shravankumarhiregoudar.medium.com/data-science-job-search-what-worked-for-me-c60a1df222b5