Являетесь ли вы новичком или экспертом, вам нужно постоянно чистить свои концепции. Мы представляем вам краткий и хорошо структурированный сборник «Необходимые темы для изучения в Data-Science». Мы создали этот контент после надлежащего обсуждения с учеными и экспертами по данным. Итак, усвойте ясное видение Data-Science и отправляйтесь в путь к интеллектуальному обучению.
Математика
- Линейная алгебра (матрица, вектор)
- Лучшая книга по линейной алгебре — Основная математика для науки о данных О’Рейли
- Статистика (ссылка — https://www.youtube.com/c/joshstarmer)
- Лучшая книга по статистике — «Практическая статистика для специалистов по данным» О’Рейли
- Вероятность
Изучите Core Python и его библиотеки
- Поток управления Python — зацикливание/ветвление
- Функции, переменные
- Ключевые слова и идентификаторы
- Многопоточность Python(ссылка — https://www.tutorialspoint.com/python/python_multithreading.htm)
- Ссылка на основной курс Python — Специализация Python для всех.
- Лучшая книга по Python — 90 эффективных способов написания Python
Библиотеки Python для обработки данных
- Нампи
- Панды
- Матплотлиб
- Сиборн и др.
- Книга — Python для анализа данных, издательство Oreilly Publication
- Следуйте этому руководству для большей ясности — https://youtu.be/r-uOLxNrNk8
Изучите алгоритмы машинного обучения
- Контролируемый против неконтролируемого против подкрепления
- Линейная регрессия, логистическая регрессия, кластеризация
- KNN (K ближайших соседей)
- SVM (машина опорных векторов)
- Деревья решений
- Случайные леса
- Переоснащение, Недооснащение
- Регуляризация, градиентный спуск, наклон
- Матрица путаницы
Книга для изучения алгоритмов ML — Hands on ML by O’reilly.
Изучите библиотеки глубокого обучения
- Tensorflow для глубокого обучения
- ПиТорч
Книга для Tensorflow — Deep Learning with Python от Manning Publication.
Книга для PyTorch — Глубокое обучение с PyTorch от Manning Publication.
Зачем изучать науку о данных?
Как мы знаем, «Наука о данных — это междисциплинарная область, в которой используются научные методы и процессы для извлечения информации из данных. В основном извлечение данных, подготовка, анализ, визуализация и обслуживание информации выполняются с использованием Data-Science».
Согласно Harvard Business Review, наука о данных была названа «самой сексуальной профессией 21 века».
В этом блоге я расскажу вам о некоторых основных причинах того, почему наука о данных стала самой востребованной профессией на рынке в нынешнюю эпоху.
Пример. Такие технологические гиганты, как Netflix, Google и Amazon, используют науку о данных для разработки мощных систем рекомендаций для своих пользователей. Тем не менее, различные финансовые компании используют прогностическую аналитику и методы прогнозирования для прогнозирования цен на акции. Наука о данных внесла свой вклад в создание более интеллектуальных систем, которые могут принимать автономные решения на основе наборов исторических данных.
Новые технологии, такие как компьютерное зрение, обработка естественного языка и обучение с подкреплением, проявили себя, чтобы сформировать более широкую картину Data-Science.
Хорошо, аналитику данных требуются различные инструменты для сбора осмысленной информации из данных. В этом блоге мы обсудим 5 лучших инструментов анализа данных, которые должен изучить каждый начинающий аналитик данных до квалифицированного профессионала в 2022 году.
A) R и Python. R и Python являются наиболее популярными языками программирования, используемыми в области анализа данных. Рассматривая R как инструмент с открытым исходным кодом для статистики и аналитики, тогда как Python — это интерпретируемый язык высокого уровня с простым синтаксисом и динамической семантикой.
Ускоренный курс R-программирования — https://youtu.be/_V8eKsto3Ug
Ускоренный курс Python-программирования — https://youtu.be/LHBE6Q9XlzI
B) Microsoft Excel — ссылка на курс — https://youtu.be/Vl0H-qTclOg
C) Tableau — Tableau — это лидирующий на рынке инструмент бизнес-аналитики, используемый для анализа и визуализации данных в удобном формате. Завоевав лидерство в Gartner Magic Quadrant 2020 8-й год подряд, Tableau дает вам возможность работать с оперативными наборами данных, экономить время на обработке данных и уделять больше внимания анализу данных.
Семейство продуктов Tableau включает следующее:
- Рабочий стол Tableau
- Табло Сервер
- Таблица онлайн
- Табло Читатель
- Таблица для публики
Среди них Tableau Public — абсолютно бесплатное программное обеспечение Tableau, которое можно использовать для визуализации, но его необходимо сохранить в вашей рабочей книге или рабочих листах на сервере Tableau, которые можно часто просматривать из любого источника.
Компании, использующие Tableau — ТНК, такие как Citibank, Deloitte, Skype и Audi, используют Tableau для визуализации своих данных и получения значимой информации.
Последние улучшения/возможности — Tableau часто выпускает обновления, чтобы предоставить пользователям следующее:
- Быстрая аналитика
- Умные информационные панели
- Обновлять автоматически
- Простота использования
- Исследуйте любые данные
- Опубликуйте панель инструментов, чтобы поделиться ею в Интернете и на других устройствах.
Tableau Crash Course — https://youtu.be/TPMlZxRRaBQ
D) SQL — SQL в основном означает язык структурированных запросов. Специалисты по данным используют язык программирования SQL для управления и запроса данных, хранящихся в огромных базах данных. Реляционные базы данных представляют собой набор данных, организованных в виде таблиц.
SQL предпочтительнее для извлечения, управления и манипулирования набором данных.
Например. Специалист по данным, работающий в банке, может использовать SQL для извлечения информации о клиентах. В то время как реляционные базы данных используют SQL, «NoSQL» также является новым выбором для нереляционных или распределенных баз данных.
Учебник по изучению SQL — https://youtu.be/HXV3zeQKqGY
E) Power BI —Microsoft Power BI — это платформа бизнес-аналитики, которая предоставляет нетехническим бизнес-пользователям инструменты для сбора, анализа, визуализации и обмена данными. Пользовательский интерфейс Power BI интуитивно понятен для пользователей, уверенных в работе с электронными таблицами, а его глубокая интеграция с другими продуктами Microsoft делает его очень универсальным инструментом самообслуживания, не требующим предварительного обучения.
В состав Power BI входит несколько компонентов, которые помогают пользователям создавать отчеты с данными и делиться ими.
- Power Query: инструмент преобразования данных.
- Power Pivot: инструмент моделирования табличных данных в памяти.
- Power View: инструмент визуализации данных.
- Power Map: инструмент визуализации трехмерных геопространственных данных.
- Мощные вопросы и ответы: механизм вопросов и ответов на естественном языке.
Ссылка на полный курс Power BI — https://youtu.be/AGrl-H87pRU
Получив четкое видение, мы готовы сделать несколько крутых проектов и продемонстрировать нашу работу над резюме, чтобы получить работу вашей мечты и программировать как профессионал!
6. Рекомендации по проектам начального уровня для энтузиастов науки о данных
i) Классификация:
Титаник: https://www.kaggle.com/c/titanic
Прогноз типа лесного покрова: https://www.kaggle.com/c/forest-cover-type-prediction
Не переусердствуйте 2: https://www.kaggle.com/c/dont-overfit-ii
Обнаружение мошенничества IEEE-CIS: https://www.kaggle.com/c/ieee-fraud-detection
Мгновенное удовлетворение: https://www.kaggle.com/c/instant-gratification
Задача кодирования категориальных признаков: https://www.kaggle.com/c/cat-in-the-dat
ii) Советы и рекомендации по двоичной классификации:
Регрессия:
Цены на жилье: https://www.kaggle.com/c/house-prices-advanced-regression-techniques
Спрос на совместное использование велосипедов: https://www.kaggle.com/c/bike-sharing-demand/data
Прогноз будущих продаж (временной ряд): https://www.kaggle.com/c/competitive-data-science-predict-future-sales
Прогноз кассовых сборов TMDB: https://www.kaggle.com/c/tmdb-box-office-prediction
ASHRAE — Великий предсказатель энергии III: https://www.kaggle.com/c/ashrae-energy-prediction/
iii) Компьютерное зрение:
Распознаватель цифр: https://www.kaggle.com/c/digit-recognizer
Идентификация породы собак: https://www.kaggle.com/c/dog-breed-identification
iv) Обработка естественного языка:
Задача классификации токсичных комментариев Jigsaw: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge
Непреднамеренная систематическая ошибка Jigsaw в классификации токсичности: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification
Jigsaw Multilingual Toxic Comment Classification: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification
Случайные акты пиццы: https://www.kaggle.com/c/random-acts-of-pizza
Обзор фильмов об анализе настроений: https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
Классификация вопросов Quora: https://www.kaggle.com/c/quora-insincere-questions-classification
Рекомендуемые курсы:
- https://www.cloudyml.com/cloudyml-data-science-course/(ИИ для всех)
- https://www.cloudyml.com/deep-learning-course/(Демистификация глубокого обучения)
- https://www.youtube.com/playlist?list=PLLy_2iUCG87D1CXFxE-SxCFZUiJzQ3IvE (математика)
- https://developers.google.com/machine-learning/crash-course (ML от Google)
- https://www.datacamp.com/courses/intro-to-python-for-data-science (Основы Python)
- https://www.coursera.org/learn/machine-learning (Стэнфордский курс, Эндрю Нг)
- https://madewithml.com/
Дополнительные учебные ресурсы:
- https://www.javatpoint.com/data-preprocessing-machine-learning (предварительная обработка данных)
- http://www.maths.qmul.ac.uk/~pjc/notes/linalg.pdf (Математика)
- https://www.mathsbox.org.uk/twi/astats.pdf (Математика)
- https://scikit-learn.org/stable/ (Scikit Learn)
- https://www.tensorflow.org/ (Tensorflow)
- https://www.kaggle.com/(Kaggle)
Хотя наука о данных, безусловно, является обширным предметом и представляет собой совокупность нескольких технологий и дисциплин, при правильном подходе можно приобрести эти навыки.
И последнее, но не менее важное: я бы сделал вывод, что наука о данных — очень надежная область, которая лучше всего подходит людям, которые умеют экспериментировать и умеют решать проблемы. Благодаря большому количеству приложений наука о данных стала самой универсальной профессией.
Надеюсь, что этот блог поможет вам узнать больше об алгоритмах машинного обучения и поиграть с ними, а также получить работу своей мечты!
Если вам понравился блог, не забудьте приобрести наши недавно запущенные хорошо подобранные курсы по очень выгодным ценам. Готовы поспорить, что у вас не будет этого золотого шанса бесплатно учиться прямо у вас под рукой, не инвестируя в какой-либо другой жаргон, чтобы получить место в ведущих компаниях в роли Data-Scientist, Data-Analyst и т. д.
Посмотрите эти замечательные курсы -
Комбинированный пакет для начинающих и продвинутых специалистов по обработке и анализу данных.
- Python для науки о данных
- Курс по науке о данных и машинному обучению
- Демистификация глубокого обучения
Чтобы узнать больше, посетите нашу официальную страницу CloudyML и получите быстро развивающийся отраслевой сертификат, который можно будет продемонстрировать в своем резюме.😉