UPenn взимает с вас 13 тысяч за эту информацию.

Рабочие места в сфере высоких технологий пользуются большим спросом в наши дни и, вероятно, будут иметь место в обозримом будущем. Я живу недалеко от Филадельфии, и местный университет прислал мне электронное письмо с информацией о том, как стать аналитиком данных. Я видел, что за 24-недельный курс берут 13 тысяч долларов. Так что я взглянул на программу и понял, что все эти вещи можно научить самостоятельно.

В выходные в День памяти я поставил перед собой задачу бесплатно найти всю информацию о курсе, поместить ее в Google Doc и посмотреть, как это выглядит. Оказывается, это выглядит как 63 часа очень хорошо сделанных видео на YouTube с минимальными моими комментариями. Итак, пожалуйста, ознакомьтесь с 5 этапами «Стать аналитиком данных» ниже.

Этап 1: ускоренный курс по Excel

Майкрософт Эксель

Microsoft Excel - это электронная таблица, разработанная Microsoft для Windows, macOS, Android и iOS. Программное обеспечение включает вычисления, инструменты построения графиков, сводные таблицы и язык программирования макросов, называемый Visual Basic для приложений.

Изучение (2,5 часа): https://www.youtube.com/watch?v=Vl0H-qTclOg

Сценарий VBA

Microsoft Excel позволяет пользователям автоматизировать функции и команды с помощью макросов и сценариев Visual Basic для приложений (VBA). VBA - это язык программирования, который Excel использует для создания макросов.

Узнайте (2 часа): https://www.youtube.com/watch?v=G05TrN7nt6k

Статистический анализ

Excel предлагает широкий спектр статистических функций, которые вы можете использовать для вычисления одного значения или массива значений на ваших листах Excel. Пакет Excel Analysis Toolpak - это надстройка, которая предоставляет еще больше инструментов статистического анализа. Воспользуйтесь этими удобными инструментами, чтобы максимально эффективно использовать статистический анализ.

Изучение (1 час): https://www.youtube.com/watch?v=iG6lN9aBrcM

Этап 2. Аналитика данных Python

Python

Python - это интерпретируемый язык программирования общего назначения высокого уровня. Философия дизайна Python подчеркивает удобочитаемость кода с заметным использованием значительных отступов.

Изучение (6 часов): https://www.youtube.com/watch?v=_uQrJ0TkZlc

API

В вычислениях интерфейс прикладного программирования (API) - это интерфейс, который определяет взаимодействие между несколькими программными приложениями или смешанными аппаратно-программными посредниками.

Изучение (2 часа): https://www.youtube.com/watch?v=GZvSYJDk-us&t=3620s

JSON

JSON - это открытый стандартный формат файла и формат обмена данными, в котором используется читаемый человеком текст для хранения и передачи объектов данных, состоящих из пар и массивов атрибут-значение. Это очень распространенный формат данных с разнообразным набором приложений, одним из примеров которых являются веб-приложения, которые взаимодействуют с сервером.

Изучение (1,5 часа): https://www.youtube.com/watch?v=IWcUJLUAO2A

NumPy

NumPy - это библиотека для языка программирования Python, добавляющая поддержку больших многомерных массивов и матриц, а также большой набор высокоуровневых математических функций для работы с этими массивами.

Изучение (1 час): https://www.youtube.com/watch?v=QUT1VHiLmmI

SciPy

SciPy - это бесплатная библиотека Python с открытым исходным кодом, используемая для научных вычислений и технических вычислений. SciPy содержит модули для оптимизации, линейной алгебры, интеграции, интерполяции, специальных функций, БПФ, обработки сигналов и изображений, решателей ODE и других задач, распространенных в науке и технике.

Изучение (2 часа): https://www.youtube.com/watch?v=ZB7BZMhfPgk

панды

pandas - это программная библиотека, написанная для языка программирования Python для обработки и анализа данных. В частности, он предлагает структуры данных и операции для управления числовыми таблицами и временными рядами. Это бесплатное программное обеспечение, выпущенное под лицензией BSD с тремя пунктами.

Изучение (1 час): https://www.youtube.com/watch?v=vmEHCJofslg

Матплотлиб

Matplotlib - это библиотека построения графиков для языка программирования Python и его расширения числовой математики NumPy. Он предоставляет объектно-ориентированный API для встраивания графиков в приложения с использованием универсальных инструментов графического интерфейса пользователя, таких как Tkinter, wxPython, Qt или GTK.

Изучение (1,5 часа): https://www.youtube.com/watch?v=3Xc3CA655Y4

Красивый суп

Beautiful Soup - это пакет Python для анализа документов HTML и XML. Он создает дерево синтаксического анализа для проанализированных страниц, которое можно использовать для извлечения данных из HTML, что полезно для парсинга веб-страниц.

Изучение (1 час): https://www.youtube.com/watch?v=XVv6mJpFOb0

Этап 3: Базы данных

SQL

SQL - это предметно-ориентированный язык, используемый в программировании и предназначенный для управления данными, хранящимися в системе управления реляционными базами данных, или для потоковой обработки в системе управления потоками реляционных данных.

Изучение (4 часа): https://www.youtube.com/watch?v=HXV3zeQKqGY

PostgreSQL

PostgreSQL, также известный как Postgres, - это бесплатная система управления реляционными базами данных с открытым исходным кодом, в которой особое внимание уделяется расширяемости и совместимости с SQL.

Узнайте (4 часа): https://www.youtube.com/watch?v=qw--VYLpxG4

MongoDB

MongoDB - это кроссплатформенная документно-ориентированная база данных с доступным исходным кодом. Классифицируемая как программа базы данных NoSQL, MongoDB использует документы, подобные JSON, с дополнительными схемами.

Узнайте (2 часа): https://www.youtube.com/watch?v=E-1xI85Zog8

ETL процесс

Вычисление, извлечение, преобразование, загрузка - это общая процедура копирования данных из одного или нескольких источников в целевую систему, которая представляет данные иначе, чем в источнике, или в другом контексте, чем источник.

Изучение (1 час): https://www.youtube.com/watch?v=ji2rigGiWis

Этап 4: веб-визуализация

HTML

Язык разметки гипертекста или HTML - это стандартный язык разметки для документов, предназначенных для отображения в веб-браузере. Этому могут помочь такие технологии, как каскадные таблицы стилей и языки сценариев, такие как JavaScript.

Изучение (1 час): https://www.youtube.com/watch?v=qz0aGYrrlhU

CSS

Каскадные таблицы стилей - это язык таблиц стилей, используемый для описания представления документа, написанного на языке разметки, таком как HTML. CSS - это краеугольная технология всемирной паутины, наряду с HTML и JavaScript.

Изучение (1,5 часа): https://www.youtube.com/watch?v=yfoY53QXEnI

JavaScript

JavaScript, часто сокращенно JS, - это язык программирования, соответствующий спецификации ECMAScript. JavaScript - это высокоуровневый, часто скомпилированный точно в срок и мультипарадигмальный. Он имеет синтаксис фигурных скобок, динамическую типизацию, объектную ориентацию на основе прототипов и функции первого класса.

Изучение (3,5 часа): https://www.youtube.com/watch?v=yfoY53QXEnI

AJAX

Ajax - это набор методов веб-разработки, использующих множество веб-технологий на стороне клиента для создания асинхронных веб-приложений. С помощью Ajax веб-приложения могут отправлять и получать данные с сервера асинхронно, не мешая отображению и поведению существующей страницы.

Изучение (1 час): https://www.youtube.com/watch?v=82hnvUYY6QA

Листовка

Leaflet - это библиотека JavaScript с открытым исходным кодом, используемая для создания картографических веб-приложений. Впервые выпущенный в 2011 году, он поддерживает большинство мобильных и настольных платформ, поддерживая HTML5 и CSS3.

Изучение (1 час): https://www.youtube.com/watch?v=ls_Eue1xUtY

Этап 5: Расширенные темы

Tableau

Tableau Software - американская компания по разработке программного обеспечения для интерактивной визуализации данных, специализирующаяся на бизнес-аналитике.

Узнайте (5 часов): https://www.youtube.com/watch?v=6mBtTNggkUk

Hadoop

Apache Hadoop - это набор программных утилит с открытым исходным кодом, которые упрощают использование сети из множества компьютеров для решения проблем, связанных с большими объемами данных и вычислений. Он предоставляет программную основу для распределенного хранения и обработки больших данных с использованием модели программирования MapReduce.

Изучение (4 часа): https://www.youtube.com/watch?v=JK2MdJAWEGc

Машинное обучение с учителем

Контролируемое обучение - это задача машинного обучения, состоящая в изучении функции, которая сопоставляет входные данные с выходными на основе примеров пар входных и выходных данных. Он выводит функцию из помеченных обучающих данных, состоящих из набора обучающих примеров.

Узнайте (7 часов): https://www.youtube.com/watch?v=QeKshry8pWQ

Неконтролируемое машинное обучение

Обучение без учителя - это тип алгоритма, который изучает закономерности на основе немаркированных данных. Есть надежда, что с помощью мимикрии машина будет вынуждена построить компактное внутреннее представление своего мира, а затем генерировать образный контент.

Изучение (1 час): https://www.youtube.com/watch?v=Liff_GA74EI

Глубокое обучение

Глубокое обучение является частью более широкого семейства методов машинного обучения, основанных на искусственных нейронных сетях с репрезентативным обучением. Обучение может быть контролируемым, частично контролируемым или неконтролируемым.

Изучение (6 часов): https://www.youtube.com/watch?v=DooxDIRAkPA