Полная компиляция моего контрольного списка для изучения науки о данных от новичка до магистра занимает всего один год с рассказом историй о путешествиях во времени. Наслаждайтесь обучением!

Наконец, эта статья - то, чего мы все ждали. В этой полной статье мы будем обсуждать, как полноценный новичок может начать свой путь в обширной области машинного обучения и науки о данных, начиная с изучения основных концепций и написания базовых кодов вплоть до проведения собеседований и получения опыта с течением времени. В Интернете и книгах так много контента, но что читать, а что нет? Совершенно запутались! Давайте вернемся назад и вернемся во времени, чтобы начать все сначала.

Если вы новичок и хотите изучать науку о данных с большой страстью к ней, то поверьте мне, эта статья определенно поможет вам составить план по изучению машинного обучения и науки о данных.

Перед этим, просто небольшой совет, эта статья будет короткой (😅 не такой уж короткой), простой и точной, в ней будут обсуждаться точные подходы, которые я бы использовал, если бы вернулся во времени и подготовился к тому, чтобы стать специалистом по данным. Ученый с классным рассказом о путешествиях во времени!

Итак, как было сказано, давайте вернемся во времени через год и начнем наше путешествие.

Спасибо, Рик и Морти, что вернули нас в 2019 году! Теперь, когда у нас есть полный год, давайте спланируем нашу полную дорожную карту. Итак, по сути, сначала давайте создадим контрольный список вещей, о которых мы могли бы подумать, прежде чем сразу приступить к изучению вещей и изучению. Мой простой описательный контрольный список представлен ниже:

  1. Изучите язык программирования (R или Python).
  2. Познакомьтесь с прикладной математикой (LA, Stats, Prob).
  3. Начните читать блоги по ML / AI и слушайте подкасты.
  4. Прочтите несколько замечательных книг, чтобы создать фундамент.
  5. Машинное обучение и глубокое обучение.
  6. Поработайте над экспериментами с навыками и сделайте несколько практических шагов.
  7. Создание нескольких сквозных проектов с конкурентоспособной наукой о данных.
  8. Подайте заявку и взломайте интервью.

Теперь контрольный список будет бесполезен, пока мы не узнаем лучшие и полезные ресурсы для начала и не будем всегда настроены на обучение.

Эти две вещи, если они будут идеально направлены на исполнение, могут сделать меня действительно хорошим DS всего за один год!

Изучение языка программирования

Чтобы стать специалистом по данным, вам не нужно быть профессиональным программистом или иметь 5 звезд на CodeChef или TopCoder, вам просто нужно знать, как написать хорошо оптимизированный код на предпочитаемом вами языке. Люди из разных слоев общества, особенно с нулевым опытом программирования, доказали, что они стали хорошими специалистами по данным всего за один год, научившись грамотно кодировать.

Выберите язык: Python и программирование на R были одним из языков, наиболее поддерживаемых с 2014 года для машинного обучения и науки о данных, благодаря простоте использования и обширной поддержке исчерпывающий список библиотек, позволяющих делать что угодно с помощью всего лишь нескольких строк кода. Приведенный выше график тенденций Google показывает, насколько популярны эти языки в поисковой системе Google. Можно попробовать оба языка и изучить, какой из них вам больше подходит, а какой, по вашему мнению, может больше помочь вам в вашем профиле работы в будущем.

Некоторые люди даже выучили бы оба, но пока я бы выбрал Python между ними, исходя из моих требований. По моему опыту, несколько ресурсов для изучения Python - это youtube: Sentdex или Corey Schafer. Кроме этого, я бы предпочел взять месячный пакет на DataCamp и попробовать свои практические уроки по питону или бесплатно LearnPyhon.org тоже помогло бы то же самое.

Познакомьтесь с прикладной математикой

Любой может заставить работать модель машинного обучения с помощью всего 3–4 строк кода, но задумывались ли вы, что происходит за кулисами? В основе алгоритма машинного обучения лежит математика, которая отстает и заставляет ее работать на нас. Поддержка библиотек облегчила нам работу, но мы должны четко понимать, как это работает и как мы можем даже создавать наши собственные модели.

Для этого нам нужно очень четко понимать основную математику, такую ​​как линейная алгебра, объясняя мне геометрическую интуицию каждого алгоритма и как я могу даже создать свою собственную модель с пониманием алгебры и векторной системы. Такие темы, как понимание матричной алгебры и векторной системы, которые могут использоваться в анализе основных компонентов (PCA), машинах опорных векторов (SVM) и многих других математических моделях.

Во-вторых, статистика и вероятность действительно важны для понимания закономерностей в данных и получения информации из них. Статистическая теория и теория вероятностей, необходимая для машинного обучения, - это понимание различных распределений, таких как распределение Гаусса, биномиальное распределение, правила вероятности, теорема Байеса, основанная на условной вероятности, закон Перито и т. Д.

Исчисление также играет очень важную роль в понимании математических моделей, и некоторые из необходимых тем включают дифференциальное и интегральное исчисление, лапласиан, якобиан, частные производные, направленный градиент, распределение Лагранжа и т. Д.

Наконец, алгоритмы и задачи оптимизации - еще один очень важный раздел математики, необходимый для вычислительной эффективности и масштабируемости нашего алгоритма машинного обучения. Понимание написания хорошо оптимального построения модели или нормализации данных может быть хорошо построено с использованием оптимального алгоритмического понимания.

Некоторыми хорошими ресурсами могут быть Книга ISLR или Математика для специализации машинного обучения, или я мог бы пройти Линейную алгебру Академии Хана. , Курсы Вероятность и статистика, Многовариантное исчисление, и Оптимизация и т. Д.

Чтение блогов, статей и прослушивание подкастов

Каждый день очень опытные люди публикуют множество замечательных блогов. Я могу читать по несколько каждый день. Теперь мне нужно спланировать, сколько блогов / статей я смогу переварить за день, не прерывая поток, и понять, что происходит в мире Data Science, или ознакомиться с некоторыми новостями в области технологий искусственного интеллекта, или что угодно. Вот некоторые действительно хорошие издатели, которые регулярно публикуют потрясающий контент: На пути к науке о данных, Инвестор, ориентированный на данные, Analytics Vidya или KD Nuggets и др.

Прослушивание нескольких отличных подкастов могло бы радикально улучшить мои навыки понимания науки, лежащей в основе работы над удивительными проектами, или того, насколько глубокие исследователи меняют сферу машинного обучения и искусственного интеллекта. Подкасты в основном помогают нам развить вполне достижимую информационную грамотность, чтобы донести наши истории данных до всех. Хороший список подкастов, которые можно регулярно слушать, находится здесь, из которых я лично предпочел бы DataFramed от Hugo-Bownie или SuperDataScience Podcast Кирилла Еременко или иногда DataHack Radio на звуковом облаке для повседневной работы.

Чтение книг по машинному обучению

«Чтение важно для тех, кто стремится превзойти обыденное». - Джим Рон

Чтение книг - одно из самых важных дел, которым я должен заниматься в этом году, чтобы улучшить свое обучение. Я должен сказать следующее: если вы любитель книг, то книги - один из лучших источников для улучшения вашего обучения. Я могу читать электронные книги в свободном доступе или покупать печатную версию, все может работать. Есть много книг, которые можно купить и начать читать, но есть несколько хороших книг, которые я бы посоветовал прочитать:

  1. Python для анализа данных,
  2. Введение в статистическое обучение,
  3. Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow,
  4. Распознавание образов и машинное обучение Кристофера М. и Бишопа,
  5. Глубокое обучение Иэна Гудфеллоу,
  6. Также хороши некоторые другие книги О'Рейли и т. Д.

Изучите машинное обучение и глубокое обучение

Онлайн-курсы MOOC могут стать отличным источником для изучения ML и DL за меньшее время и сделать путешествие интерактивным. Я бы предпочел пройти следующие курсы для изучения ML и DL.

  1. Машинное обучение Стэнфордского университета,
  2. Прикладная наука о данных со специализацией на Python Мичиганский университет,
  3. Специализация глубокого обучения от deeplearning.ai,
  4. Курс прикладного искусственного интеллекта Шриканта Вармы,
  5. Курсы Data Science и ML Кирилла Еременко в Udemy,
  6. Для CNN и компьютерного зрения CS231n Стэнфордского университета,
  7. А для НЛП CS224n Стэнфордского университета - красивые курсы и т. Д.

Помимо этих, некоторые стандартные университеты по всему миру также предлагают потрясающие онлайн- или офлайн-курсы по машинному обучению и науке о данных. Вы можете проверить их на их официальном сайте, если хотите узнать больше, или прочитать статью, связанную с этим, чтобы узнать больше.

Skill Gym и практические занятия

«Скажи мне, и я забуду. Научи меня, и я запомню. Вовлеките меня, и я научусь », - Бенджамин Франклин

В общем, если человек просто продолжает учиться и не вовлекаться в дела, он не сможет надолго сохранить знания в постоянной памяти. Практика - очень важный процесс обучения. Я, несомненно, предпочел бы либо писать код для каждой концепции, которую я изучил на моем локальном компьютере, и размещать его в каком-то облаке или GitHub, чтобы обезопасить себя, либо использовать хорошие онлайн-платформы, чтобы сделать то же самое на своих облака, такие как DataCamp или Dataquest. Это помогло бы мне не только укрепить свои концепции, но и со временем улучшить свои навыки программирования, которые я мог бы в любое время пересмотреть, просто взглянув на код.

Создание сквозных проектов и участие в конкурсах

Работа над проектами для применения того, что я узнал в прошлом, очень важна для понимания того, как проекты машинного обучения строятся в реальной отрасли. Вы получите исчерпывающий список проектов, над которыми вы можете работать, DataFlair, Simplilearn или любая случайная статья в Интернете, которая поможет вам начать создание базовых проектов. Во-вторых, создание хорошо документированного репозитория моего кода для публичного проекта на GitHub или любой VCS определенно поможет мне в создании хорошего портфолио.

Участие в соревнованиях также в конечном итоге поможет мне научиться программировать и применить свои навыки к реальным задачам, а также увидеть свое место в таблице лидеров в глобальном масштабе, что может помочь мне исправить свои ошибки и стать лучше. Я бы принял участие в соревнованиях по любому из Kaggle, Analytics Vidya, Driven Data или HackerEarth , и т. Д. которые проводят потрясающие глобальные исследования, а также конкурсы отраслевого уровня. Но убедитесь, что вы не переобучаетесь😂!

Вы можете прочитать эту статью ниже, чтобы узнать больше о моем путешествии по Kaggle из будущего (😅 не забывайте, что сейчас мы в прошлом).



Взломать интервью

Теперь я должен быть полностью готов ко всему и начать подавать заявку на роль в области науки о данных, а также должен работать над улучшением своих коммуникативных навыков, рассказывания историй данных и других мягких навыков. Я должен быть в состоянии понять свою работу, проделанную в прошлом, и проекты, которые я реализовал, в полной мере, и я смогу объяснить их наилучшим образом, чем никто другой.

Ваши знания не принесут вам хорошей работы, если у вас нет хорошего портфолио, которое много о вас говорит. Прочтите эту статью, если вы хотите узнать больше о создании хорошего портфолио для себя!



Если я буду следить за всем сейчас, в течение года я смогу прорваться через технологии машинного обучения и науки о данных и смогу получить хорошую работу, то же самое касается тебя, мой друг, который прошел со мной весь путь через это статья😉!

Давайте вернемся во времени в 2020 году после крутого путешествия во времени и максимально используем время, которое у нас есть из-за неопределенности пандемии COVID, чтобы научиться и стать хорошими в машинном обучении и науке о данных.

Бонусный совет для вас!

Поздравляем 🎉, если вы все еще читаете эту статью, значит, вы действительно тот человек, у которого есть настойчивость и решимость стать специалистом по данным и скоро им станет!

Если вы новичок и искали с чего начать, я надеюсь, у вас будет четкое представление, чтобы выбрать и спланировать свой собственный контрольный список.

Хотите узнать больше о статистике, машинном обучении и науке о данных?

Вы можете прочитать другие мои похожие блоги здесь:







Возможности« нормального распределения
Понимание науки, лежащей в основе колоколообразной кривой! кdatascience.com»



Благодарим вас и желаем удачи в вашем новом путешествии!

Дополнительные ресурсы и ссылки

  1. Https://medium.com/towards-artificial-intelligence/top-universities-to-pursue-a-masters-in-machine-learning-ml-in-the-us-ai-d4a461229fbb
  2. Https://towardsdatascience.com/python-vs-r-for-data-science-6a83e4541000
  3. Https://towardsdatascience.com/the-mat Mathematics-of-machine-learning-894f046c568
  4. Https://towardsdatascience.com/top-competitive-data-science-platforms-other-than-kaggle-2995e9dad93c
  5. Https://towardsdatascience.com/8-ml-ai-projects-to-make-your-portfolio-stand-out-bfc5be94e063