(УДАЛЕНИЕ НЕВЕДУЩЕЙ ИНФОРМАЦИИ)

ЧТО ТАКОЕ НАУКА О ДАННЫХ?

Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из множества структурированных и неструктурированных данных.

ОСНОВНЫЕ ШАГИ НАУКИ ДАННЫХ:

  1. Сбор данных
  2. Предварительная обработка данных
  3. Исследовательский анализ данных
  4. Выбор функции
  5. Функциональная инженерия
  6. Моделирование данных
  7. Анализ показателей производительности
  8. Развертывание модели данных.

СБОР ДАННЫХ:

Процесс сбора и измерения информации из бесчисленного множества различных источников.

Возможные источники данных:

  • Механические и электронные датчики.
  • Веб-контент - обзоры, электронные письма, теги социальных сетей, лайки, публикации,
  • Данные здравоохранения - датчики EEC / ECG

Это ссылка на поиск Google Dataset, где можно найти разные категории данных, например:

  • Данные о страховании
  • Финансовые данные
  • Данные электронной торговли
  • Лично идентифицированная информация

Https://datasetsearch.research.google.com/

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ:

  1. БИННИНГ
  2. ОБРАЩЕНИЕ С АУДИТОРАМИ
  3. ИМПУТАЦИЯ
  4. ОДНО ГОРЯЧЕЕ КОДИРОВАНИЕ
  5. ГЕОКОДИРОВАНИЕ

БИННИНГ

  • Основная цель биннинга - сделать модель более надежной и предотвратить переоснащение, однако это сказывается на производительности.
  • Каждый раз, когда вы что-то собираете, вы жертвуете информацией и делаете свои данные более упорядоченными.

ОБРАЩЕНИЕ С АУДИТОРАМИ

Выброс - это точка данных, которая значительно отличается от остальных данных.

ОБНАРУЖЕНИЕ ОКРУЖАЮЩЕЙ СРЕДЫ ПО СТАНДАРТНОМУ ОТКЛОНЕНИЮ И ПРОЦЕНТИЛЯМ

  • Если значение имеет расстояние до среднего значения больше, чем x * стандартное отклонение, оно может считаться выбросом.
  • Другой метод - использовать Boxplot.

ИМПУТАЦИЯ

  • Отсутствующие значения - одна из наиболее распространенных проблем, с которыми вы можете столкнуться при попытке подготовить данные для машинного обучения.
  • Причиной отсутствия значений могут быть человеческие ошибки, прерывания потока данных, проблемы с конфиденциальностью и т. Д.
  • Какой бы ни была причина, отсутствующие значения влияют на производительность моделей машинного обучения.

ЧИСЛЕННОЕ И КАТЕГОРИЧЕСКОЕ ВНЕДРЕНИЕ

  1. Один из лучших способов вменения - использовать медианы / средние значения числовых столбцов.
  2. Замена отсутствующих значений на максимальное значение в столбце - хороший вариант для обработки категориальных столбцов.

ГОРЯЧЕЕ КОДИРОВАНИЕ

  • Быстрое кодирование - один из наиболее распространенных методов кодирования в машинном обучении.
  • Этот метод распределяет значения в столбце по нескольким столбцам флагов и присваивает им 0 или 1.
  • Эти двоичные значения выражают связь между сгруппированным и закодированным столбцом.

ГЕОКОДИРОВАНИЕ

  • Геокодирование - это «процесс преобразования описания местоположения, такого как пара координат, адрес или название места, в местоположение на поверхности земли».
  • Геокодирование - это процесс преобразования адресов (например, адреса улицы) в географические координаты (например, широту и долготу), которые вы можете использовать для позиционирования карты.
  • Обратное геокодирование - это процесс преобразования географических координат в удобочитаемый адрес.
  • Вы можете использовать такие библиотеки, как geopy и reverse_geocoder, чтобы восстановить адрес из географического местоположения.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ:

  • Дискретная переменная: переменная, которая принимает фиксированное количество значений. Например: модель автомобиля.
  • Непрерывная переменная: переменная, которая принимает бесконечное количество значений. Например: Вес человека.

Классификация по шкале:

Номинальная шкала: переменные, которые принимают фиксированные числа, но не могут быть упорядочены.

Например, цвет волос.

Порядковая шкала: переменные, которые принимают фиксированные числа и могут быть упорядочены.

Например, система оценок. (А, Б, В)

Уровни дохода: низкий, средний, высокий.

Дихотомические переменные: переменная, которая может принимать два значения.

Например: Кредит предоставлен: да, нет

Состояние датчика: Вкл., Выкл.

Двоичные переменные: дихотомические переменные, декодированные как 0 и 1.

ВЫБОР ФУНКЦИЙ:

При выборе функций мы сокращаем количество входных переменных до тех, которые наиболее полезны для модели, чтобы предсказать целевую переменную.

Преимущества выполнения выбора функции:

  • Уменьшает переобучение
  • Повышает точность
  • Сокращает время обучения

КАТЕГОРИИ

  • На основе фильтра: мы указываем некоторую метрику и на основе этой функции фильтра. Например: корреляция
  • На основе оболочки: методы оболочки рассматривают выбор набора функций как проблему поиска. Пример: рекурсивное исключение признаков
  • Встроенные / внутренние: встроенные методы используют алгоритмы, которые имеют встроенные методы выбора функций. Пример: лассо и дерево решений

РАЗРАБОТКА ОСОБЕННОСТЕЙ:

Разработка функций - это процесс преобразования необработанных данных в функции, которые лучше представляют основную проблему для прогнозных моделей, что приводит к повышению точности модели для невидимых данных.

  • Функции мозгового штурма или тестирования
  • Решаем, какие функции создавать
  • Создание функций
  • Проверка того, как функции работают с вашей моделью
  • Улучшение ваших функций при необходимости
  • Вернитесь к мозговому штурму / созданию дополнительных функций, пока работа не будет сделана

КАТЕГОРИИ

  1. ИСПОЛЬЗОВАНИЕ ПЕРЕМЕННЫХ-ИНДИКАТОРОВ
  2. ИСПОЛЬЗОВАНИЕ ФУНКЦИЙ ВЗАИМОДЕЙСТВИЯ
  3. ПРЕДСТАВЛЕНИЕ ФУНКЦИЙ
  4. ВНЕШНИЕ ДАННЫЕ

ЧТО НЕ РАЗРАБОТКА ФУНКЦИЙ:

  • Сбор исходных данных
  • Создание целевой переменной
  • Очистка данных
  • Масштабирование или нормализация
  • Выбор функции или PCA

Подготовка данных к моделированию

Мы разделяем данные на данные для обучения и тестирования.

  • Данные обучения - это данные, на которых мы работаем и строим модели машинного обучения.
  • Данные тестирования - это то, на чем мы тестируем наши модели

ВИДЫ РАЗДЕЛЕНИЯ ДАННЫХ: -

  1. Продержать оценку
  2. Перекрестная оценка K FOLD

Перекрестная - проверка обычно является предпочтительным методом, так как он дает вашей модели возможность обучаться на нескольких разделениях "поезд-тест". Это дает вам лучшее представление о том, насколько хорошо ваша модель будет работать с невидимыми данными. Удерживать - выход, с другой стороны, зависит только от одного сплита "поезд-тест".

МОДЕЛИРОВАНИЕ ДАННЫХ:

Алгоритмы машинного обучения

  • Под присмотром
  • Без присмотра

КОНТРОЛЬНОЕ ОБУЧЕНИЕ

Регрессия

- Линейная регрессия

  • Классификация

- Логистическая регрессия

- Древо решений

БЕСПРОВОДНОЕ ОБУЧЕНИЕ

  • Кластеризация
  • Генеративные состязательные сети
  • Автоэнкодеры
  • Обнаружение аномалий

АНАЛИЗ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ:

  • Точность
  • Матрица путаницы
  • Точность
  • Отзывать
  • Оценка F1
  • Средняя абсолютная ошибка
  • BLEU

РАЗВЕРТЫВАНИЕ МОДЕЛИ:

Это последний шаг в конвейере обработки данных.

Развертывание - это метод, с помощью которого вы интегрируете модель машинного обучения в существующую производственную среду для принятия практических бизнес-решений на основе данных.

БИБЛИОТЕКИ, КОТОРЫЕ МОЖНО ИСПОЛЬЗОВАТЬ ДЛЯ НАУКИ ДАННЫХ -