Если вы хотите окунуться в науку о данных или ищете способы специализироваться в ней, этот пост для вас. С 2015 по 2022 год количество рабочих мест в области науки о данных увеличилось на 300%, и эта тема по-прежнему актуальна и сегодня. В этом посте мы рассмотрим, как вы можете исследовать эту область и погрузиться в модный мир науки о данных.

Немного о моем опыте в науке о данных. Я начал изучать машинное обучение из-за старшеклассника, на которого равнялся. Он дал мне несколько ресурсов для обучения, которые я также упомяну здесь. Это помогло мне изучить поле. Моя первая стажировка (PS1) была в компании, занимающейся обработкой естественного языка (NLP), после этого я проходил вторую стажировку в DRDO — Центре искусственного интеллекта и робототехники, где занимался глубоким обучением. Затем я написал статью о сверточных нейронных сетях (2D-CNN). В настоящее время я работаю специалистом по данным в финтех-компании, в основном работая с моделями XGBoost и анализом кредитных рисков. Итак, у меня есть немало советов, которые я могу дать всем, кто тоже хочет этим заняться. Наряду с несколькими пунктами, которым я хотел бы следовать раньше.

Изучаем науку о данных

Давайте сначала посмотрим, что такое наука о данных на самом деле. Классные термины, такие как машинное обучение (ML), глубокое обучение (DL) и обучение с подкреплением (RL), входят в понятие науки о данных. Наука о данных, по сути, использует данные для получения выводов о проблемах, это может быть с помощью статистических моделей или моделей обучения. Понимание данных и создание статистических выводов из них относится к области анализа данных. Использование моделей для того, чтобы ваш код «обучался» на шаблонах, относится к искусственному интеллекту. ML, DL и RL относятся к области искусственного интеллекта.

Теперь, когда мы понимаем, что наука о данных — это больше, чем просто машинное обучение, мы можем приступить к изучению. Вот пошаговое руководство по выполнению этого, хотя я бы рекомендовал вам делать случайные вещи, чтобы вы учились из множества источников. Но следующий подход может сделать его более рациональным.

Примечание. Когда я говорю ML, я имею в виду модели искусственного интеллекта (ML, DL, RL) в целом.

  1. Прочитайте много статей в Средних о том, как ML внедряется для решения реальных задач. При этом спросите себя, как модель может учиться и делать прогнозы. Это не только поможет вам решить, интересно вам это или нет, но и побудит вас заинтересоваться теорией машинного обучения.
  2. Перейдите к теории машинного обучения, пройдите базовый курс теории машинного обучения и попытайтесь связать это с реальной проблемой, о которой вы читали ранее. Я не любитель теории, поэтому я бы посоветовал не брать тяжелые курсы, такие как курс Эндрю Н.Г. на Coursera, потому что, когда я это делал, мне было очень скучно. Просто изучите достаточно теории, чтобы приступить к реализации.
  3. Как только вы поймете основные темы, такие как контролируемое и неконтролируемое обучение, классификация и регрессия, градиентный спуск и нейронные сети, вы можете пройти курс внедрения. Я использовал Tensorflow 2.0 от Freecodecamp. Я бы действительно рекомендовал это.
  4. Что касается анализа данных, вы можете начать с изучения нескольких тематических исследований, а затем перейти к изучению основных инструментов, которые потребуются любому аналитику в будущем. DataCamp — хорошее место, чтобы освоить следующие навыки:
  • Excel или Google Sheets — в основном формулы и сводные таблицы.
  • SQL — запросы и расширение SQL-запросов на облачные платформы, где в настоящее время выполняется большая часть анализа. Это может быть платформа AWS или Google GCP.
  • Инструменты визуализации и анализа, такие как PowerBI, Tableau или Metabase.

Этих 3 пунктов было бы достаточно для начала работы с наукой о данных. Пришло время оценить, интересно вам это или нет. В любом случае, вы будете знать науку о данных достаточно, чтобы выбирать, когда и как использовать ее в будущей работе!

Специализируюсь на науке о данных

Если вы решите продолжить карьеру в области науки о данных и хотите стать лучше в этом, я бы разбил ее на следующие пункты.

  1. Анализ данных. Ищите тематические исследования, основанные на данных. Это заставит вас взглянуть на данные с разных сторон. Теперь, когда я работаю с опытными аналитиками данных, я могу с уверенностью сказать, что они умеют анализировать данные. Узнайте о проверке гипотез, анализе и рассказывании историй. Все это должно быть объединено и дополнено хорошей презентацией и умением убеждать.
  2. Моделирование и ИИ. Теперь, когда вы разобрались с основами, вы можете начать глубоко погружаться в мельчайшие детали моделирования. Это можно разбить на следующие этапы:
  • Понимание математики моделей. Математика градиентного спуска, SVM, деревья решений, регрессия и нейронные сети.
  • Разберитесь в функциях потерь и оптимизаторах и изучите концепции, лежащие в их основе, чтобы знать, где что использовать.
  • Гиперпараметры и их настройка — это последние шаги в улучшении вашей модели. Несколько гиперпараметров должны быть у вас под рукой, особенно когда вы сидите за местами размещения.
  • Подготовка данных — «мусор в мусоре» — очень распространенная поговорка в моделировании. Хотя это самый громоздкий и скучный шаг, он самый важный. Узнайте, как правильно подготовить данные, особенно с учетом бизнес-понимания.

2-й пункт по моделированию включает в себя множество решенных проблем и построенных моделей. Решите много решенных задач изначально, особенно из блокнотов Kaggle. Затем вы можете начать применять то, что вы узнали, чтобы улучшить свои прогнозы решенных проблем, взяться за новые задачи или зарегистрироваться в соревнованиях по программированию. На практике вы освоитесь с моделированием, и вы увидите шаблон, когда дело доходит до очистки и обучения ваших данных.

Обучение чему-либо никогда не бывает линейным. Вы столкнетесь со многими препятствиями с точки зрения непонимания концепций, неправильной настройки вашей системы и отсутствия достаточных навыков для решения нескольких проблем, но это поможет в боковом обучении, которое чрезвычайно полезно. Так что держитесь и оседлайте волну обучения, когда она придет!

Подписание

Маниш Патил