Наука о данных и аналитика — это междисциплинарная область, требующая ряда навыков в области статистики, математики, прогнозного моделирования и бизнес-анализа. Специалист по данным должен чувствовать себя свободно, чтобы создавать необходимые алгоритмы, работать с различными источниками данных (часто в разных формах) и предлагать решение.
Ниже приведено краткое введение в темы статистики, аналитики, машинного обучения и визуализации.
Чтобы освоить науку о данных, предлагается углубиться в детали каждой темы.
Описательная статистика:
- Исследование данных (гистограммы, линейчатая диаграмма, коробчатая диаграмма, линейный график, точечная диаграмма)
- Качественные и количественные данные
- Показатель центральной тенденции (среднее, медиана и мода)
- Показатель позиций (квартили, децили, процентили и квантили)
- Мера дисперсии (диапазон, медиана, абсолютное отклонение от медианы
- Дисперсия и стандартное отклонение), квартет Анскомба
- Другие показатели: квартиль и процентиль, межквартильный диапазон
Выводная статистика: понимание атрибутов данных и распределения
- Выборка и совокупность
- Выборочные методы (простые, стратифицированные, кластеризованные, случайные)
- Выборочные распределения, оценка параметров
- Проверка гипотезы (концепция проверки гипотезы, нулевая гипотеза и альтернативная гипотеза)
- Перекрестные таблицы (таблица непредвиденных обстоятельств и их использование, критерий хи-квадрат, точный критерий Фишера)
- Один выборочный t-тест (концепция, предположения, гипотеза, проверка предположений, выполнение теста и интерпретация результатов)
- Стьюдент-критерий независимых выборок
- Стьюдент-критерий для парных выборок
- Однофакторный дисперсионный анализ (апостериорные тесты: LSD Фишера, HSD Тьюки).
- Z-тест и F-тест
Исходный анализ данных:
- Связь между атрибутами:
- Ковариация
- Коэффициент корреляции
- Квадрат Чи
- Мера распределения (асимметрия и эксцесс), прямоугольная диаграмма и диаграмма с усами (ячеистая диаграмма и ее части, использование прямоугольных диаграмм для сравнения распределения) и другие статистические графики.
Вероятность
- Вероятность (совместная, предельная и условная вероятности)
- Распределения вероятностей (непрерывное и дискретное)
- Функции плотности и кумулятивные функции
Предварительная обработка данных, подготовка, преобразование, качество. Большая часть времени уходит на этапы предварительной обработки и очистки данных.
- Обработка данных, споры
- Вменение данных
- Преобразование данных (minmax, логарифмическое преобразование, преобразование z-оценки и т. д.).
- Группирование, классификация и стандартизация.
- Выбросы/шум и аномалии.
- Обработка текстовых данных и предварительная обработка:
- Набор слов
- Регулярные выражения
- Разделение предложений и токенизация
- Пунктуация и стоп-слова, неправильное написание
- Свойства слов и облака Word
- Лемматизация и вычисление Term-Document TxD
Прогнозная аналитика:прогнозирование тенденций и моделей поведенияи классификация.
Линейная регрессия
- Основы регрессии: отношения между атрибутами с использованием ковариации и корреляции
- Взаимосвязь между несколькими переменными: регрессия (линейная, многомерная) в прогнозировании.
- Остаточный анализ
- Выявление значимых признаков, сокращение признаков с помощью AIC, мультиколлинеарность
- Ненормальность и гетероскедастичность
- Проверка гипотез регрессионной модели
- Доверительные интервалы наклона
- R-квадрат и качество подгонки
- Влиятельные наблюдения — использование
Множественная линейная регрессия
- Полиномиальная регрессия
- Методы регуляризации
- Сети Lasso, Ridge и Elastic
- Категориальные переменные в регрессии
Нелинейная регрессия классификации
- Логит-функция и интерпретация
- Логистическая регрессия
- Типы мер по ошибкам(ROCR)
- Эффективность модели
- Проверка модели
- Интерпретация модели
- Точность
- Точность
- Вспомнить
- Оценка F1
- Матрица путаницы
Модели прогнозирования
- Анализ тенденций
- Циклический и сезонный анализ
- Сглаживание
- Скользящие средние
- Бокс-Дженкинс
- Холт-Уинтерс
- Автокорреляция
- АРИМА
Методы модификации модели и данных: до или после создания модели эти методы можно использовать для повышения производительности модели.
- Методы проверки (перекрестная проверка)
- Уменьшение количества функций/Уменьшение размерности
- Анализ главных компонент (собственные значения, собственные векторы, ортогональность)
- Регуляризация L1 и L2
- Градиентный спуск
Кластеризация
- Различные методы кластеризации (Расстояние, Плотность, Иерархический, Спектральный)
- Иерархическая кластеризация
- Разделительная и агломеративная кластеризация
- DBSCAN
- Кластеризация K-средних
Классификация. Классификация наиболее широко используется в бизнес-задачах.
Наивный байесовский классификатор:
- Допущения модели, оценка вероятности
- Необходимая обработка данных
- М-оценки, выбор функций: взаимная информация
K-ближайшие соседи:
- Вычислительная геометрия; диаграммы Вороного; Триангуляции Делоне
- Алгоритм K-ближайшего соседа; Редактирование и триангуляция Уилсона
- Аспекты, которые следует учитывать при разработке K-ближайшего соседа
Машины опорных векторов:
- Машины линейного обучения и пространство ядра, создание ядер и работа в пространстве функций
- SVM для задач классификации и регрессии.
Дерева решений:
- Индекс Джини
- Энтропия или получение информации
- Хи-квадрат
Методы ансамбля:
- Бэггинг и бустинг и их влияние на предвзятость и дисперсию
- Случайный лес
- Машины повышения градиента и XGBoost
Визуализация данных. Четкая и эффективная визуализация закономерностей, которые мы обнаруживаем в данных, и информирование о них — ключевой навык.
- Карты, диаграммы, графики
- История
- Определение возможностей
- Tableau, Microsoft Excel, QlikView, Power BI.
Далее:
- Темы в нейронных сетях и глубоком обучении.
- Обзор проекта по науке о данных и поток обработки данных.