Наука о данных и аналитика — это междисциплинарная область, требующая ряда навыков в области статистики, математики, прогнозного моделирования и бизнес-анализа. Специалист по данным должен чувствовать себя свободно, чтобы создавать необходимые алгоритмы, работать с различными источниками данных (часто в разных формах) и предлагать решение.

Ниже приведено краткое введение в темы статистики, аналитики, машинного обучения и визуализации.

Чтобы освоить науку о данных, предлагается углубиться в детали каждой темы.

Описательная статистика:

  • Исследование данных (гистограммы, линейчатая диаграмма, коробчатая диаграмма, линейный график, точечная диаграмма)
  • Качественные и количественные данные
  • Показатель центральной тенденции (среднее, медиана и мода)
  • Показатель позиций (квартили, децили, процентили и квантили)
  • Мера дисперсии (диапазон, медиана, абсолютное отклонение от медианы
  • Дисперсия и стандартное отклонение), квартет Анскомба
  • Другие показатели: квартиль и процентиль, межквартильный диапазон

Выводная статистика: понимание атрибутов данных и распределения

  • Выборка и совокупность
  • Выборочные методы (простые, стратифицированные, кластеризованные, случайные)
  • Выборочные распределения, оценка параметров
  • Проверка гипотезы (концепция проверки гипотезы, нулевая гипотеза и альтернативная гипотеза)
  • Перекрестные таблицы (таблица непредвиденных обстоятельств и их использование, критерий хи-квадрат, точный критерий Фишера)
  • Один выборочный t-тест (концепция, предположения, гипотеза, проверка предположений, выполнение теста и интерпретация результатов)
  • Стьюдент-критерий независимых выборок
  • Стьюдент-критерий для парных выборок
  • Однофакторный дисперсионный анализ (апостериорные тесты: LSD Фишера, HSD Тьюки).
  • Z-тест и F-тест

Исходный анализ данных:

  • Связь между атрибутами:
  • Ковариация
  • Коэффициент корреляции
  • Квадрат Чи
  • Мера распределения (асимметрия и эксцесс), прямоугольная диаграмма и диаграмма с усами (ячеистая диаграмма и ее части, использование прямоугольных диаграмм для сравнения распределения) и другие статистические графики.

Вероятность

  • Вероятность (совместная, предельная и условная вероятности)
  • Распределения вероятностей (непрерывное и дискретное)
  • Функции плотности и кумулятивные функции

Предварительная обработка данных, подготовка, преобразование, качество. Большая часть времени уходит на этапы предварительной обработки и очистки данных.

  • Обработка данных, споры
  • Вменение данных
  • Преобразование данных (minmax, логарифмическое преобразование, преобразование z-оценки и т. д.).
  • Группирование, классификация и стандартизация.
  • Выбросы/шум и аномалии.
  • Обработка текстовых данных и предварительная обработка:
  1. Набор слов
  2. Регулярные выражения
  3. Разделение предложений и токенизация
  4. Пунктуация и стоп-слова, неправильное написание
  5. Свойства слов и облака Word
  6. Лемматизация и вычисление Term-Document TxD

Прогнозная аналитика:прогнозирование тенденций и моделей поведенияи классификация.

Линейная регрессия

  • Основы регрессии: отношения между атрибутами с использованием ковариации и корреляции
  • Взаимосвязь между несколькими переменными: регрессия (линейная, многомерная) в прогнозировании.
  • Остаточный анализ
  • Выявление значимых признаков, сокращение признаков с помощью AIC, мультиколлинеарность
  • Ненормальность и гетероскедастичность
  • Проверка гипотез регрессионной модели
  • Доверительные интервалы наклона
  • R-квадрат и качество подгонки
  • Влиятельные наблюдения — использование

Множественная линейная регрессия

  • Полиномиальная регрессия
  • Методы регуляризации
  • Сети Lasso, Ridge и Elastic
  • Категориальные переменные в регрессии

Нелинейная регрессия классификации

  • Логит-функция и интерпретация
  • Логистическая регрессия
  • Типы мер по ошибкам(ROCR)
  • Эффективность модели
  • Проверка модели
  • Интерпретация модели
  • Точность
  • Точность
  • Вспомнить
  • Оценка F1
  • Матрица путаницы

Модели прогнозирования

  • Анализ тенденций
  • Циклический и сезонный анализ
  • Сглаживание
  • Скользящие средние
  • Бокс-Дженкинс
  • Холт-Уинтерс
  • Автокорреляция
  • АРИМА

Методы модификации модели и данных: до или после создания модели эти методы можно использовать для повышения производительности модели.

  • Методы проверки (перекрестная проверка)
  • Уменьшение количества функций/Уменьшение размерности
  • Анализ главных компонент (собственные значения, собственные векторы, ортогональность)
  • Регуляризация L1 и L2
  • Градиентный спуск

Кластеризация

  • Различные методы кластеризации (Расстояние, Плотность, Иерархический, Спектральный)
  • Иерархическая кластеризация
  • Разделительная и агломеративная кластеризация
  • DBSCAN
  • Кластеризация K-средних

Классификация. Классификация наиболее широко используется в бизнес-задачах.

Наивный байесовский классификатор:

  • Допущения модели, оценка вероятности
  • Необходимая обработка данных
  • М-оценки, выбор функций: взаимная информация

K-ближайшие соседи:

  • Вычислительная геометрия; диаграммы Вороного; Триангуляции Делоне
  • Алгоритм K-ближайшего соседа; Редактирование и триангуляция Уилсона
  • Аспекты, которые следует учитывать при разработке K-ближайшего соседа

Машины опорных векторов:

  • Машины линейного обучения и пространство ядра, создание ядер и работа в пространстве функций
  • SVM для задач классификации и регрессии.

Дерева решений:

  • Индекс Джини
  • Энтропия или получение информации
  • Хи-квадрат

Методы ансамбля:

  • Бэггинг и бустинг и их влияние на предвзятость и дисперсию
  • Случайный лес
  • Машины повышения градиента и XGBoost

Визуализация данных. Четкая и эффективная визуализация закономерностей, которые мы обнаруживаем в данных, и информирование о них — ключевой навык.

  • Карты, диаграммы, графики
  • История
  • Определение возможностей
  • Tableau, Microsoft Excel, QlikView, Power BI.

Далее:

  • Темы в нейронных сетях и глубоком обучении.
  • Обзор проекта по науке о данных и поток обработки данных.