ОСНОВЫ ТРУБОПРОВОДА НАУКИ ДАННЫХ

(УДАЛЕНИЕ НЕВЕДУЩЕЙ ИНФОРМАЦИИ)

ЧТО ТАКОЕ НАУКА О ДАННЫХ?

Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из множества структурированных и неструктурированных данных.

ОСНОВНЫЕ ШАГИ НАУКИ ДАННЫХ:

Сбор данных
Предварительная обработка данных
Исследовательский анализ данных
Выбор функции
Функциональная инженерия
Моделирование данных
Анализ показателей производительности
Развертывание модели данных.

СБОР ДАННЫХ:

Процесс сбора и измерения информации из бесчисленного множества различных источников.

Возможные источники данных:

Механические и электронные датчики.
Веб-контент - обзоры, электронные письма, теги социальных сетей, лайки, публикации,
Данные здравоохранения - датчики EEC / ECG

Это ссылка на поиск Google Dataset, где можно найти разные категории данных, например:

Данные о страховании
Финансовые данные
Данные электронной торговли
Лично идентифицированная информация

Https://datasetsearch.research.google.com/

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ:

БИННИНГ
ОБРАЩЕНИЕ С АУДИТОРАМИ
ИМПУТАЦИЯ
ОДНО ГОРЯЧЕЕ КОДИРОВАНИЕ
ГЕОКОДИРОВАНИЕ

БИННИНГ

Основная цель биннинга - сделать модель более надежной и предотвратить переоснащение, однако это сказывается на производительности.
Каждый раз, когда вы что-то собираете, вы жертвуете информацией и делаете свои данные более упорядоченными.

ОБРАЩЕНИЕ С АУДИТОРАМИ

Выброс - это точка данных, которая значительно отличается от остальных данных.

ОБНАРУЖЕНИЕ ОКРУЖАЮЩЕЙ СРЕДЫ ПО СТАНДАРТНОМУ ОТКЛОНЕНИЮ И ПРОЦЕНТИЛЯМ

Если значение имеет расстояние до среднего значения больше, чем x * стандартное отклонение, оно может считаться выбросом.
Другой метод - использовать Boxplot.

ИМПУТАЦИЯ

Отсутствующие значения - одна из наиболее распространенных проблем, с которыми вы можете столкнуться при попытке подготовить данные для машинного обучения.
Причиной отсутствия значений могут быть человеческие ошибки, прерывания потока данных, проблемы с конфиденциальностью и т. Д.
Какой бы ни была причина, отсутствующие значения влияют на производительность моделей машинного обучения.

ЧИСЛЕННОЕ И КАТЕГОРИЧЕСКОЕ ВНЕДРЕНИЕ

Один из лучших способов вменения - использовать медианы / средние значения числовых столбцов.
Замена отсутствующих значений на максимальное значение в столбце - хороший вариант для обработки категориальных столбцов.

ГОРЯЧЕЕ КОДИРОВАНИЕ

Быстрое кодирование - один из наиболее распространенных методов кодирования в машинном обучении.
Этот метод распределяет значения в столбце по нескольким столбцам флагов и присваивает им 0 или 1.
Эти двоичные значения выражают связь между сгруппированным и закодированным столбцом.

ГЕОКОДИРОВАНИЕ

Геокодирование - это «процесс преобразования описания местоположения, такого как пара координат, адрес или название места, в местоположение на поверхности земли».
Геокодирование - это процесс преобразования адресов (например, адреса улицы) в географические координаты (например, широту и долготу), которые вы можете использовать для позиционирования карты.
Обратное геокодирование - это процесс преобразования географических координат в удобочитаемый адрес.
Вы можете использовать такие библиотеки, как geopy и reverse_geocoder, чтобы восстановить адрес из географического местоположения.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ:

Дискретная переменная: переменная, которая принимает фиксированное количество значений. Например: модель автомобиля.
Непрерывная переменная: переменная, которая принимает бесконечное количество значений. Например: Вес человека.

Классификация по шкале:

Номинальная шкала: переменные, которые принимают фиксированные числа, но не могут быть упорядочены.

Например, цвет волос.

Порядковая шкала: переменные, которые принимают фиксированные числа и могут быть упорядочены.

Например, система оценок. (А, Б, В)

Уровни дохода: низкий, средний, высокий.

Дихотомические переменные: переменная, которая может принимать два значения.

Например: Кредит предоставлен: да, нет

Состояние датчика: Вкл., Выкл.

Двоичные переменные: дихотомические переменные, декодированные как 0 и 1.

ВЫБОР ФУНКЦИЙ:

При выборе функций мы сокращаем количество входных переменных до тех, которые наиболее полезны для модели, чтобы предсказать целевую переменную.

Преимущества выполнения выбора функции:

Уменьшает переобучение
Повышает точность
Сокращает время обучения

КАТЕГОРИИ

На основе фильтра: мы указываем некоторую метрику и на основе этой функции фильтра. Например: корреляция
На основе оболочки: методы оболочки рассматривают выбор набора функций как проблему поиска. Пример: рекурсивное исключение признаков
Встроенные / внутренние: встроенные методы используют алгоритмы, которые имеют встроенные методы выбора функций. Пример: лассо и дерево решений

РАЗРАБОТКА ОСОБЕННОСТЕЙ:

Разработка функций - это процесс преобразования необработанных данных в функции, которые лучше представляют основную проблему для прогнозных моделей, что приводит к повышению точности модели для невидимых данных.

Функции мозгового штурма или тестирования
Решаем, какие функции создавать
Создание функций
Проверка того, как функции работают с вашей моделью
Улучшение ваших функций при необходимости
Вернитесь к мозговому штурму / созданию дополнительных функций, пока работа не будет сделана

КАТЕГОРИИ

ИСПОЛЬЗОВАНИЕ ПЕРЕМЕННЫХ-ИНДИКАТОРОВ
ИСПОЛЬЗОВАНИЕ ФУНКЦИЙ ВЗАИМОДЕЙСТВИЯ
ПРЕДСТАВЛЕНИЕ ФУНКЦИЙ
ВНЕШНИЕ ДАННЫЕ

ЧТО НЕ РАЗРАБОТКА ФУНКЦИЙ:

Сбор исходных данных
Создание целевой переменной
Очистка данных
Масштабирование или нормализация
Выбор функции или PCA

Подготовка данных к моделированию

Мы разделяем данные на данные для обучения и тестирования.

Данные обучения - это данные, на которых мы работаем и строим модели машинного обучения.
Данные тестирования - это то, на чем мы тестируем наши модели

ВИДЫ РАЗДЕЛЕНИЯ ДАННЫХ: -

Продержать оценку
Перекрестная оценка K FOLD

Перекрестная - проверка обычно является предпочтительным методом, так как он дает вашей модели возможность обучаться на нескольких разделениях "поезд-тест". Это дает вам лучшее представление о том, насколько хорошо ваша модель будет работать с невидимыми данными. Удерживать - выход, с другой стороны, зависит только от одного сплита "поезд-тест".

МОДЕЛИРОВАНИЕ ДАННЫХ:

Алгоритмы машинного обучения

Под присмотром
Без присмотра

КОНТРОЛЬНОЕ ОБУЧЕНИЕ

Регрессия

- Линейная регрессия

Классификация

- Логистическая регрессия

- Древо решений

БЕСПРОВОДНОЕ ОБУЧЕНИЕ

Кластеризация
Генеративные состязательные сети
Автоэнкодеры
Обнаружение аномалий

АНАЛИЗ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ:

Точность
Матрица путаницы
Точность
Отзывать
Оценка F1
Средняя абсолютная ошибка
BLEU

РАЗВЕРТЫВАНИЕ МОДЕЛИ:

Это последний шаг в конвейере обработки данных.

Развертывание - это метод, с помощью которого вы интегрируете модель машинного обучения в существующую производственную среду для принятия практических бизнес-решений на основе данных.

БИБЛИОТЕКИ, КОТОРЫЕ МОЖНО ИСПОЛЬЗОВАТЬ ДЛЯ НАУКИ ДАННЫХ -

Scikit Learn (https://scikit-learn.org/stable/)
Керас (https://keras.io/)
Matplotlib (https://matplotlib.org/)
Панды (https://pandas.pydata.org/)
Numpy (https://numpy.org/)