Являетесь ли вы новичком или экспертом, вам нужно постоянно чистить свои концепции. Мы представляем вам краткий и хорошо структурированный сборник «Необходимые темы для изучения в Data-Science». Мы создали этот контент после надлежащего обсуждения с учеными и экспертами по данным. Итак, усвойте ясное видение Data-Science и отправляйтесь в путь к интеллектуальному обучению.

Математика

  • Линейная алгебра (матрица, вектор)
  • Лучшая книга по линейной алгебре — Основная математика для науки о данных О’Рейли
  • Статистика (ссылка — https://www.youtube.com/c/joshstarmer)
  • Лучшая книга по статистике — «Практическая статистика для специалистов по данным» О’Рейли
  • Вероятность

Изучите Core Python и его библиотеки

Библиотеки Python для обработки данных

  • Нампи
  • Панды
  • Матплотлиб
  • Сиборн и др.
  • Книга — Python для анализа данных, издательство Oreilly Publication
  • Следуйте этому руководству для большей ясности — https://youtu.be/r-uOLxNrNk8

Изучите алгоритмы машинного обучения

  • Контролируемый против неконтролируемого против подкрепления
  • Линейная регрессия, логистическая регрессия, кластеризация
  • KNN (K ближайших соседей)
  • SVM (машина опорных векторов)
  • Деревья решений
  • Случайные леса
  • Переоснащение, Недооснащение
  • Регуляризация, градиентный спуск, наклон
  • Матрица путаницы

Книга для изучения алгоритмов ML — Hands on ML by O’reilly.

Изучите библиотеки глубокого обучения

  • Tensorflow для глубокого обучения
  • ПиТорч

Книга для Tensorflow — Deep Learning with Python от Manning Publication.

Книга для PyTorch — Глубокое обучение с PyTorch от Manning Publication.

Зачем изучать науку о данных?

Как мы знаем, «Наука о данных — это междисциплинарная область, в которой используются научные методы и процессы для извлечения информации из данных. В основном извлечение данных, подготовка, анализ, визуализация и обслуживание информации выполняются с использованием Data-Science».

Согласно Harvard Business Review, наука о данных была названа «самой сексуальной профессией 21 века».

В этом блоге я расскажу вам о некоторых основных причинах того, почему наука о данных стала самой востребованной профессией на рынке в нынешнюю эпоху.

Пример. Такие технологические гиганты, как Netflix, Google и Amazon, используют науку о данных для разработки мощных систем рекомендаций для своих пользователей. Тем не менее, различные финансовые компании используют прогностическую аналитику и методы прогнозирования для прогнозирования цен на акции. Наука о данных внесла свой вклад в создание более интеллектуальных систем, которые могут принимать автономные решения на основе наборов исторических данных.

Новые технологии, такие как компьютерное зрение, обработка естественного языка и обучение с подкреплением, проявили себя, чтобы сформировать более широкую картину Data-Science.

Хорошо, аналитику данных требуются различные инструменты для сбора осмысленной информации из данных. В этом блоге мы обсудим 5 лучших инструментов анализа данных, которые должен изучить каждый начинающий аналитик данных до квалифицированного профессионала в 2022 году.

A) R и Python. R и Python являются наиболее популярными языками программирования, используемыми в области анализа данных. Рассматривая R как инструмент с открытым исходным кодом для статистики и аналитики, тогда как Python — это интерпретируемый язык высокого уровня с простым синтаксисом и динамической семантикой.

Ускоренный курс R-программирования — https://youtu.be/_V8eKsto3Ug

Ускоренный курс Python-программирования — https://youtu.be/LHBE6Q9XlzI

B) Microsoft Excel — ссылка на курс https://youtu.be/Vl0H-qTclOg

C) TableauTableau — это лидирующий на рынке инструмент бизнес-аналитики, используемый для анализа и визуализации данных в удобном формате. Завоевав лидерство в Gartner Magic Quadrant 2020 8-й год подряд, Tableau дает вам возможность работать с оперативными наборами данных, экономить время на обработке данных и уделять больше внимания анализу данных.

Семейство продуктов Tableau включает следующее:

  • Рабочий стол Tableau
  • Табло Сервер
  • Таблица онлайн
  • Табло Читатель
  • Таблица для публики

Среди них Tableau Public — абсолютно бесплатное программное обеспечение Tableau, которое можно использовать для визуализации, но его необходимо сохранить в вашей рабочей книге или рабочих листах на сервере Tableau, которые можно часто просматривать из любого источника.

Компании, использующие Tableau — ТНК, такие как Citibank, Deloitte, Skype и Audi, используют Tableau для визуализации своих данных и получения значимой информации.

Последние улучшения/возможности — Tableau часто выпускает обновления, чтобы предоставить пользователям следующее:

  • Быстрая аналитика
  • Умные информационные панели
  • Обновлять автоматически
  • Простота использования
  • Исследуйте любые данные
  • Опубликуйте панель инструментов, чтобы поделиться ею в Интернете и на других устройствах.

Tableau Crash Course — https://youtu.be/TPMlZxRRaBQ

D) SQL — SQL в основном означает язык структурированных запросов. Специалисты по данным используют язык программирования SQL для управления и запроса данных, хранящихся в огромных базах данных. Реляционные базы данных представляют собой набор данных, организованных в виде таблиц.

SQL предпочтительнее для извлечения, управления и манипулирования набором данных.

Например. Специалист по данным, работающий в банке, может использовать SQL для извлечения информации о клиентах. В то время как реляционные базы данных используют SQL, «NoSQL» также является новым выбором для нереляционных или распределенных баз данных.

Учебник по изучению SQL — https://youtu.be/HXV3zeQKqGY

E) Power BI —Microsoft Power BI — это платформа бизнес-аналитики, которая предоставляет нетехническим бизнес-пользователям инструменты для сбора, анализа, визуализации и обмена данными. Пользовательский интерфейс Power BI интуитивно понятен для пользователей, уверенных в работе с электронными таблицами, а его глубокая интеграция с другими продуктами Microsoft делает его очень универсальным инструментом самообслуживания, не требующим предварительного обучения.

В состав Power BI входит несколько компонентов, которые помогают пользователям создавать отчеты с данными и делиться ими.

  • Power Query: инструмент преобразования данных.
  • Power Pivot: инструмент моделирования табличных данных в памяти.
  • Power View: инструмент визуализации данных.
  • Power Map: инструмент визуализации трехмерных геопространственных данных.
  • Мощные вопросы и ответы: механизм вопросов и ответов на естественном языке.

Ссылка на полный курс Power BI — https://youtu.be/AGrl-H87pRU

Получив четкое видение, мы готовы сделать несколько крутых проектов и продемонстрировать нашу работу над резюме, чтобы получить работу вашей мечты и программировать как профессионал!

6. Рекомендации по проектам начального уровня для энтузиастов науки о данных

i) Классификация:

Титаник: https://www.kaggle.com/c/titanic

Прогноз типа лесного покрова: https://www.kaggle.com/c/forest-cover-type-prediction

Не переусердствуйте 2: https://www.kaggle.com/c/dont-overfit-ii

Обнаружение мошенничества IEEE-CIS: https://www.kaggle.com/c/ieee-fraud-detection

Мгновенное удовлетворение: https://www.kaggle.com/c/instant-gratification

Задача кодирования категориальных признаков: https://www.kaggle.com/c/cat-in-the-dat

ii) Советы и рекомендации по двоичной классификации:

Регрессия:

Цены на жилье: https://www.kaggle.com/c/house-prices-advanced-regression-techniques

Спрос на совместное использование велосипедов: https://www.kaggle.com/c/bike-sharing-demand/data

Прогноз будущих продаж (временной ряд): https://www.kaggle.com/c/competitive-data-science-predict-future-sales

Прогноз кассовых сборов TMDB: https://www.kaggle.com/c/tmdb-box-office-prediction

ASHRAE — Великий предсказатель энергии III: https://www.kaggle.com/c/ashrae-energy-prediction/

iii) Компьютерное зрение:

Распознаватель цифр: https://www.kaggle.com/c/digit-recognizer

Идентификация породы собак: https://www.kaggle.com/c/dog-breed-identification

iv) Обработка естественного языка:

Задача классификации токсичных комментариев Jigsaw: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge

Непреднамеренная систематическая ошибка Jigsaw в классификации токсичности: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification

Jigsaw Multilingual Toxic Comment Classification: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification

Случайные акты пиццы: https://www.kaggle.com/c/random-acts-of-pizza

Обзор фильмов об анализе настроений: https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews

Классификация вопросов Quora: https://www.kaggle.com/c/quora-insincere-questions-classification

Рекомендуемые курсы:

  1. https://www.cloudyml.com/cloudyml-data-science-course/(ИИ для всех)
  2. https://www.cloudyml.com/deep-learning-course/(Демистификация глубокого обучения)
  3. https://www.youtube.com/playlist?list=PLLy_2iUCG87D1CXFxE-SxCFZUiJzQ3IvE (математика)
  4. https://developers.google.com/machine-learning/crash-course (ML от Google)
  5. https://www.datacamp.com/courses/intro-to-python-for-data-science (Основы Python)
  6. https://www.coursera.org/learn/machine-learning (Стэнфордский курс, Эндрю Нг)
  7. https://madewithml.com/

Дополнительные учебные ресурсы:

  1. https://www.javatpoint.com/data-preprocessing-machine-learning (предварительная обработка данных)
  2. http://www.maths.qmul.ac.uk/~pjc/notes/linalg.pdf (Математика)
  3. https://www.mathsbox.org.uk/twi/astats.pdf (Математика)
  4. https://scikit-learn.org/stable/ (Scikit Learn)
  5. https://www.tensorflow.org/ (Tensorflow)
  6. https://www.kaggle.com/(Kaggle)

Хотя наука о данных, безусловно, является обширным предметом и представляет собой совокупность нескольких технологий и дисциплин, при правильном подходе можно приобрести эти навыки.

И последнее, но не менее важное: я бы сделал вывод, что наука о данных — очень надежная область, которая лучше всего подходит людям, которые умеют экспериментировать и умеют решать проблемы. Благодаря большому количеству приложений наука о данных стала самой универсальной профессией.

Надеюсь, что этот блог поможет вам узнать больше об алгоритмах машинного обучения и поиграть с ними, а также получить работу своей мечты!

Если вам понравился блог, не забудьте приобрести наши недавно запущенные хорошо подобранные курсы по очень выгодным ценам. Готовы поспорить, что у вас не будет этого золотого шанса бесплатно учиться прямо у вас под рукой, не инвестируя в какой-либо другой жаргон, чтобы получить место в ведущих компаниях в роли Data-Scientist, Data-Analyst и т. д.

Посмотрите эти замечательные курсы -

Комбинированный пакет для начинающих и продвинутых специалистов по обработке и анализу данных.

  1. Python для науки о данных
  2. Курс по науке о данных и машинному обучению
  3. Демистификация глубокого обучения

Чтобы узнать больше, посетите нашу официальную страницу CloudyML и получите быстро развивающийся отраслевой сертификат, который можно будет продемонстрировать в своем резюме.😉