Полные темы Обзор науки о данных и аналитики.

Наука о данных и аналитика — это междисциплинарная область, требующая ряда навыков в области статистики, математики, прогнозного моделирования и бизнес-анализа. Специалист по данным должен чувствовать себя свободно, чтобы создавать необходимые алгоритмы, работать с различными источниками данных (часто в разных формах) и предлагать решение.

Ниже приведено краткое введение в темы статистики, аналитики, машинного обучения и визуализации.

Чтобы освоить науку о данных, предлагается углубиться в детали каждой темы.

Описательная статистика:

Исследование данных (гистограммы, линейчатая диаграмма, коробчатая диаграмма, линейный график, точечная диаграмма)
Качественные и количественные данные
Показатель центральной тенденции (среднее, медиана и мода)
Показатель позиций (квартили, децили, процентили и квантили)
Мера дисперсии (диапазон, медиана, абсолютное отклонение от медианы
Дисперсия и стандартное отклонение), квартет Анскомба
Другие показатели: квартиль и процентиль, межквартильный диапазон

Выводная статистика: понимание атрибутов данных и распределения

Выборка и совокупность
Выборочные методы (простые, стратифицированные, кластеризованные, случайные)
Выборочные распределения, оценка параметров
Проверка гипотезы (концепция проверки гипотезы, нулевая гипотеза и альтернативная гипотеза)
Перекрестные таблицы (таблица непредвиденных обстоятельств и их использование, критерий хи-квадрат, точный критерий Фишера)
Один выборочный t-тест (концепция, предположения, гипотеза, проверка предположений, выполнение теста и интерпретация результатов)
Стьюдент-критерий независимых выборок
Стьюдент-критерий для парных выборок
Однофакторный дисперсионный анализ (апостериорные тесты: LSD Фишера, HSD Тьюки).
Z-тест и F-тест

Исходный анализ данных:

Связь между атрибутами:
Ковариация
Коэффициент корреляции
Квадрат Чи
Мера распределения (асимметрия и эксцесс), прямоугольная диаграмма и диаграмма с усами (ячеистая диаграмма и ее части, использование прямоугольных диаграмм для сравнения распределения) и другие статистические графики.

Вероятность

Вероятность (совместная, предельная и условная вероятности)
Распределения вероятностей (непрерывное и дискретное)
Функции плотности и кумулятивные функции

Предварительная обработка данных, подготовка, преобразование, качество. Большая часть времени уходит на этапы предварительной обработки и очистки данных.

Обработка данных, споры
Вменение данных
Преобразование данных (minmax, логарифмическое преобразование, преобразование z-оценки и т. д.).
Группирование, классификация и стандартизация.
Выбросы/шум и аномалии.
Обработка текстовых данных и предварительная обработка:

Набор слов
Регулярные выражения
Разделение предложений и токенизация
Пунктуация и стоп-слова, неправильное написание
Свойства слов и облака Word
Лемматизация и вычисление Term-Document TxD

Прогнозная аналитика:прогнозирование тенденций и моделей поведенияи классификация.

Линейная регрессия

Основы регрессии: отношения между атрибутами с использованием ковариации и корреляции
Взаимосвязь между несколькими переменными: регрессия (линейная, многомерная) в прогнозировании.
Остаточный анализ
Выявление значимых признаков, сокращение признаков с помощью AIC, мультиколлинеарность
Ненормальность и гетероскедастичность
Проверка гипотез регрессионной модели
Доверительные интервалы наклона
R-квадрат и качество подгонки
Влиятельные наблюдения — использование

Множественная линейная регрессия

Полиномиальная регрессия
Методы регуляризации
Сети Lasso, Ridge и Elastic
Категориальные переменные в регрессии

Нелинейная регрессия классификации

Логит-функция и интерпретация
Логистическая регрессия
Типы мер по ошибкам(ROCR)
Эффективность модели
Проверка модели
Интерпретация модели
Точность
Точность
Вспомнить
Оценка F1
Матрица путаницы

Модели прогнозирования

Анализ тенденций
Циклический и сезонный анализ
Сглаживание
Скользящие средние
Бокс-Дженкинс
Холт-Уинтерс
Автокорреляция
АРИМА

Методы модификации модели и данных: до или после создания модели эти методы можно использовать для повышения производительности модели.

Методы проверки (перекрестная проверка)
Уменьшение количества функций/Уменьшение размерности
Анализ главных компонент (собственные значения, собственные векторы, ортогональность)
Регуляризация L1 и L2
Градиентный спуск

Кластеризация

Различные методы кластеризации (Расстояние, Плотность, Иерархический, Спектральный)
Иерархическая кластеризация
Разделительная и агломеративная кластеризация
DBSCAN
Кластеризация K-средних

Классификация. Классификация наиболее широко используется в бизнес-задачах.

Наивный байесовский классификатор:

Допущения модели, оценка вероятности
Необходимая обработка данных
М-оценки, выбор функций: взаимная информация

K-ближайшие соседи:

Вычислительная геометрия; диаграммы Вороного; Триангуляции Делоне
Алгоритм K-ближайшего соседа; Редактирование и триангуляция Уилсона
Аспекты, которые следует учитывать при разработке K-ближайшего соседа

Машины опорных векторов:

Машины линейного обучения и пространство ядра, создание ядер и работа в пространстве функций
SVM для задач классификации и регрессии.

Дерева решений:

Индекс Джини
Энтропия или получение информации
Хи-квадрат

Методы ансамбля:

Бэггинг и бустинг и их влияние на предвзятость и дисперсию
Случайный лес
Машины повышения градиента и XGBoost

Визуализация данных. Четкая и эффективная визуализация закономерностей, которые мы обнаруживаем в данных, и информирование о них — ключевой навык.

Карты, диаграммы, графики
История
Определение возможностей
Tableau, Microsoft Excel, QlikView, Power BI.

Далее:

Темы в нейронных сетях и глубоком обучении.
Обзор проекта по науке о данных и поток обработки данных.

Полные темы Обзор науки о данных и аналитики.

Вопросы по теме