UPenn взимает с вас 13 тысяч за эту информацию.
Рабочие места в сфере высоких технологий пользуются большим спросом в наши дни и, вероятно, будут иметь место в обозримом будущем. Я живу недалеко от Филадельфии, и местный университет прислал мне электронное письмо с информацией о том, как стать аналитиком данных. Я видел, что за 24-недельный курс берут 13 тысяч долларов. Так что я взглянул на программу и понял, что все эти вещи можно научить самостоятельно.
В выходные в День памяти я поставил перед собой задачу бесплатно найти всю информацию о курсе, поместить ее в Google Doc и посмотреть, как это выглядит. Оказывается, это выглядит как 63 часа очень хорошо сделанных видео на YouTube с минимальными моими комментариями. Итак, пожалуйста, ознакомьтесь с 5 этапами «Стать аналитиком данных» ниже.
Этап 1: ускоренный курс по Excel
Майкрософт Эксель
Microsoft Excel - это электронная таблица, разработанная Microsoft для Windows, macOS, Android и iOS. Программное обеспечение включает вычисления, инструменты построения графиков, сводные таблицы и язык программирования макросов, называемый Visual Basic для приложений.
Изучение (2,5 часа): https://www.youtube.com/watch?v=Vl0H-qTclOg
Сценарий VBA
Microsoft Excel позволяет пользователям автоматизировать функции и команды с помощью макросов и сценариев Visual Basic для приложений (VBA). VBA - это язык программирования, который Excel использует для создания макросов.
Узнайте (2 часа): https://www.youtube.com/watch?v=G05TrN7nt6k
Статистический анализ
Excel предлагает широкий спектр статистических функций, которые вы можете использовать для вычисления одного значения или массива значений на ваших листах Excel. Пакет Excel Analysis Toolpak - это надстройка, которая предоставляет еще больше инструментов статистического анализа. Воспользуйтесь этими удобными инструментами, чтобы максимально эффективно использовать статистический анализ.
Изучение (1 час): https://www.youtube.com/watch?v=iG6lN9aBrcM
Этап 2. Аналитика данных Python
Python
Python - это интерпретируемый язык программирования общего назначения высокого уровня. Философия дизайна Python подчеркивает удобочитаемость кода с заметным использованием значительных отступов.
Изучение (6 часов): https://www.youtube.com/watch?v=_uQrJ0TkZlc
API
В вычислениях интерфейс прикладного программирования (API) - это интерфейс, который определяет взаимодействие между несколькими программными приложениями или смешанными аппаратно-программными посредниками.
Изучение (2 часа): https://www.youtube.com/watch?v=GZvSYJDk-us&t=3620s
JSON
JSON - это открытый стандартный формат файла и формат обмена данными, в котором используется читаемый человеком текст для хранения и передачи объектов данных, состоящих из пар и массивов атрибут-значение. Это очень распространенный формат данных с разнообразным набором приложений, одним из примеров которых являются веб-приложения, которые взаимодействуют с сервером.
Изучение (1,5 часа): https://www.youtube.com/watch?v=IWcUJLUAO2A
NumPy
NumPy - это библиотека для языка программирования Python, добавляющая поддержку больших многомерных массивов и матриц, а также большой набор высокоуровневых математических функций для работы с этими массивами.
Изучение (1 час): https://www.youtube.com/watch?v=QUT1VHiLmmI
SciPy
SciPy - это бесплатная библиотека Python с открытым исходным кодом, используемая для научных вычислений и технических вычислений. SciPy содержит модули для оптимизации, линейной алгебры, интеграции, интерполяции, специальных функций, БПФ, обработки сигналов и изображений, решателей ODE и других задач, распространенных в науке и технике.
Изучение (2 часа): https://www.youtube.com/watch?v=ZB7BZMhfPgk
панды
pandas - это программная библиотека, написанная для языка программирования Python для обработки и анализа данных. В частности, он предлагает структуры данных и операции для управления числовыми таблицами и временными рядами. Это бесплатное программное обеспечение, выпущенное под лицензией BSD с тремя пунктами.
Изучение (1 час): https://www.youtube.com/watch?v=vmEHCJofslg
Матплотлиб
Matplotlib - это библиотека построения графиков для языка программирования Python и его расширения числовой математики NumPy. Он предоставляет объектно-ориентированный API для встраивания графиков в приложения с использованием универсальных инструментов графического интерфейса пользователя, таких как Tkinter, wxPython, Qt или GTK.
Изучение (1,5 часа): https://www.youtube.com/watch?v=3Xc3CA655Y4
Красивый суп
Beautiful Soup - это пакет Python для анализа документов HTML и XML. Он создает дерево синтаксического анализа для проанализированных страниц, которое можно использовать для извлечения данных из HTML, что полезно для парсинга веб-страниц.
Изучение (1 час): https://www.youtube.com/watch?v=XVv6mJpFOb0
Этап 3: Базы данных
SQL
SQL - это предметно-ориентированный язык, используемый в программировании и предназначенный для управления данными, хранящимися в системе управления реляционными базами данных, или для потоковой обработки в системе управления потоками реляционных данных.
Изучение (4 часа): https://www.youtube.com/watch?v=HXV3zeQKqGY
PostgreSQL
PostgreSQL, также известный как Postgres, - это бесплатная система управления реляционными базами данных с открытым исходным кодом, в которой особое внимание уделяется расширяемости и совместимости с SQL.
Узнайте (4 часа): https://www.youtube.com/watch?v=qw--VYLpxG4
MongoDB
MongoDB - это кроссплатформенная документно-ориентированная база данных с доступным исходным кодом. Классифицируемая как программа базы данных NoSQL, MongoDB использует документы, подобные JSON, с дополнительными схемами.
Узнайте (2 часа): https://www.youtube.com/watch?v=E-1xI85Zog8
ETL процесс
Вычисление, извлечение, преобразование, загрузка - это общая процедура копирования данных из одного или нескольких источников в целевую систему, которая представляет данные иначе, чем в источнике, или в другом контексте, чем источник.
Изучение (1 час): https://www.youtube.com/watch?v=ji2rigGiWis
Этап 4: веб-визуализация
HTML
Язык разметки гипертекста или HTML - это стандартный язык разметки для документов, предназначенных для отображения в веб-браузере. Этому могут помочь такие технологии, как каскадные таблицы стилей и языки сценариев, такие как JavaScript.
Изучение (1 час): https://www.youtube.com/watch?v=qz0aGYrrlhU
CSS
Каскадные таблицы стилей - это язык таблиц стилей, используемый для описания представления документа, написанного на языке разметки, таком как HTML. CSS - это краеугольная технология всемирной паутины, наряду с HTML и JavaScript.
Изучение (1,5 часа): https://www.youtube.com/watch?v=yfoY53QXEnI
JavaScript
JavaScript, часто сокращенно JS, - это язык программирования, соответствующий спецификации ECMAScript. JavaScript - это высокоуровневый, часто скомпилированный точно в срок и мультипарадигмальный. Он имеет синтаксис фигурных скобок, динамическую типизацию, объектную ориентацию на основе прототипов и функции первого класса.
Изучение (3,5 часа): https://www.youtube.com/watch?v=yfoY53QXEnI
AJAX
Ajax - это набор методов веб-разработки, использующих множество веб-технологий на стороне клиента для создания асинхронных веб-приложений. С помощью Ajax веб-приложения могут отправлять и получать данные с сервера асинхронно, не мешая отображению и поведению существующей страницы.
Изучение (1 час): https://www.youtube.com/watch?v=82hnvUYY6QA
Листовка
Leaflet - это библиотека JavaScript с открытым исходным кодом, используемая для создания картографических веб-приложений. Впервые выпущенный в 2011 году, он поддерживает большинство мобильных и настольных платформ, поддерживая HTML5 и CSS3.
Изучение (1 час): https://www.youtube.com/watch?v=ls_Eue1xUtY
Этап 5: Расширенные темы
Tableau
Tableau Software - американская компания по разработке программного обеспечения для интерактивной визуализации данных, специализирующаяся на бизнес-аналитике.
Узнайте (5 часов): https://www.youtube.com/watch?v=6mBtTNggkUk
Hadoop
Apache Hadoop - это набор программных утилит с открытым исходным кодом, которые упрощают использование сети из множества компьютеров для решения проблем, связанных с большими объемами данных и вычислений. Он предоставляет программную основу для распределенного хранения и обработки больших данных с использованием модели программирования MapReduce.
Изучение (4 часа): https://www.youtube.com/watch?v=JK2MdJAWEGc
Машинное обучение с учителем
Контролируемое обучение - это задача машинного обучения, состоящая в изучении функции, которая сопоставляет входные данные с выходными на основе примеров пар входных и выходных данных. Он выводит функцию из помеченных обучающих данных, состоящих из набора обучающих примеров.
Узнайте (7 часов): https://www.youtube.com/watch?v=QeKshry8pWQ
Неконтролируемое машинное обучение
Обучение без учителя - это тип алгоритма, который изучает закономерности на основе немаркированных данных. Есть надежда, что с помощью мимикрии машина будет вынуждена построить компактное внутреннее представление своего мира, а затем генерировать образный контент.
Изучение (1 час): https://www.youtube.com/watch?v=Liff_GA74EI
Глубокое обучение
Глубокое обучение является частью более широкого семейства методов машинного обучения, основанных на искусственных нейронных сетях с репрезентативным обучением. Обучение может быть контролируемым, частично контролируемым или неконтролируемым.
Изучение (6 часов): https://www.youtube.com/watch?v=DooxDIRAkPA