(УДАЛЕНИЕ НЕВЕДУЩЕЙ ИНФОРМАЦИИ)
ЧТО ТАКОЕ НАУКА О ДАННЫХ?
Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из множества структурированных и неструктурированных данных.
ОСНОВНЫЕ ШАГИ НАУКИ ДАННЫХ:
- Сбор данных
- Предварительная обработка данных
- Исследовательский анализ данных
- Выбор функции
- Функциональная инженерия
- Моделирование данных
- Анализ показателей производительности
- Развертывание модели данных.
СБОР ДАННЫХ:
Процесс сбора и измерения информации из бесчисленного множества различных источников.
Возможные источники данных:
- Механические и электронные датчики.
- Веб-контент - обзоры, электронные письма, теги социальных сетей, лайки, публикации,
- Данные здравоохранения - датчики EEC / ECG
Это ссылка на поиск Google Dataset, где можно найти разные категории данных, например:
- Данные о страховании
- Финансовые данные
- Данные электронной торговли
- Лично идентифицированная информация
Https://datasetsearch.research.google.com/
ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ:
- БИННИНГ
- ОБРАЩЕНИЕ С АУДИТОРАМИ
- ИМПУТАЦИЯ
- ОДНО ГОРЯЧЕЕ КОДИРОВАНИЕ
- ГЕОКОДИРОВАНИЕ
БИННИНГ
- Основная цель биннинга - сделать модель более надежной и предотвратить переоснащение, однако это сказывается на производительности.
- Каждый раз, когда вы что-то собираете, вы жертвуете информацией и делаете свои данные более упорядоченными.
ОБРАЩЕНИЕ С АУДИТОРАМИ
Выброс - это точка данных, которая значительно отличается от остальных данных.
ОБНАРУЖЕНИЕ ОКРУЖАЮЩЕЙ СРЕДЫ ПО СТАНДАРТНОМУ ОТКЛОНЕНИЮ И ПРОЦЕНТИЛЯМ
- Если значение имеет расстояние до среднего значения больше, чем x * стандартное отклонение, оно может считаться выбросом.
- Другой метод - использовать Boxplot.
ИМПУТАЦИЯ
- Отсутствующие значения - одна из наиболее распространенных проблем, с которыми вы можете столкнуться при попытке подготовить данные для машинного обучения.
- Причиной отсутствия значений могут быть человеческие ошибки, прерывания потока данных, проблемы с конфиденциальностью и т. Д.
- Какой бы ни была причина, отсутствующие значения влияют на производительность моделей машинного обучения.
ЧИСЛЕННОЕ И КАТЕГОРИЧЕСКОЕ ВНЕДРЕНИЕ
- Один из лучших способов вменения - использовать медианы / средние значения числовых столбцов.
- Замена отсутствующих значений на максимальное значение в столбце - хороший вариант для обработки категориальных столбцов.
ГОРЯЧЕЕ КОДИРОВАНИЕ
- Быстрое кодирование - один из наиболее распространенных методов кодирования в машинном обучении.
- Этот метод распределяет значения в столбце по нескольким столбцам флагов и присваивает им 0 или 1.
- Эти двоичные значения выражают связь между сгруппированным и закодированным столбцом.
ГЕОКОДИРОВАНИЕ
- Геокодирование - это «процесс преобразования описания местоположения, такого как пара координат, адрес или название места, в местоположение на поверхности земли».
- Геокодирование - это процесс преобразования адресов (например, адреса улицы) в географические координаты (например, широту и долготу), которые вы можете использовать для позиционирования карты.
- Обратное геокодирование - это процесс преобразования географических координат в удобочитаемый адрес.
- Вы можете использовать такие библиотеки, как geopy и reverse_geocoder, чтобы восстановить адрес из географического местоположения.
ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ:
- Дискретная переменная: переменная, которая принимает фиксированное количество значений. Например: модель автомобиля.
- Непрерывная переменная: переменная, которая принимает бесконечное количество значений. Например: Вес человека.
Классификация по шкале:
Номинальная шкала: переменные, которые принимают фиксированные числа, но не могут быть упорядочены.
Например, цвет волос.
Порядковая шкала: переменные, которые принимают фиксированные числа и могут быть упорядочены.
Например, система оценок. (А, Б, В)
Уровни дохода: низкий, средний, высокий.
Дихотомические переменные: переменная, которая может принимать два значения.
Например: Кредит предоставлен: да, нет
Состояние датчика: Вкл., Выкл.
Двоичные переменные: дихотомические переменные, декодированные как 0 и 1.
ВЫБОР ФУНКЦИЙ:
При выборе функций мы сокращаем количество входных переменных до тех, которые наиболее полезны для модели, чтобы предсказать целевую переменную.
Преимущества выполнения выбора функции:
- Уменьшает переобучение
- Повышает точность
- Сокращает время обучения
КАТЕГОРИИ
- На основе фильтра: мы указываем некоторую метрику и на основе этой функции фильтра. Например: корреляция
- На основе оболочки: методы оболочки рассматривают выбор набора функций как проблему поиска. Пример: рекурсивное исключение признаков
- Встроенные / внутренние: встроенные методы используют алгоритмы, которые имеют встроенные методы выбора функций. Пример: лассо и дерево решений
РАЗРАБОТКА ОСОБЕННОСТЕЙ:
Разработка функций - это процесс преобразования необработанных данных в функции, которые лучше представляют основную проблему для прогнозных моделей, что приводит к повышению точности модели для невидимых данных.
- Функции мозгового штурма или тестирования
- Решаем, какие функции создавать
- Создание функций
- Проверка того, как функции работают с вашей моделью
- Улучшение ваших функций при необходимости
- Вернитесь к мозговому штурму / созданию дополнительных функций, пока работа не будет сделана
КАТЕГОРИИ
- ИСПОЛЬЗОВАНИЕ ПЕРЕМЕННЫХ-ИНДИКАТОРОВ
- ИСПОЛЬЗОВАНИЕ ФУНКЦИЙ ВЗАИМОДЕЙСТВИЯ
- ПРЕДСТАВЛЕНИЕ ФУНКЦИЙ
- ВНЕШНИЕ ДАННЫЕ
ЧТО НЕ РАЗРАБОТКА ФУНКЦИЙ:
- Сбор исходных данных
- Создание целевой переменной
- Очистка данных
- Масштабирование или нормализация
- Выбор функции или PCA
Подготовка данных к моделированию
Мы разделяем данные на данные для обучения и тестирования.
- Данные обучения - это данные, на которых мы работаем и строим модели машинного обучения.
- Данные тестирования - это то, на чем мы тестируем наши модели
ВИДЫ РАЗДЕЛЕНИЯ ДАННЫХ: -
- Продержать оценку
- Перекрестная оценка K FOLD
Перекрестная - проверка обычно является предпочтительным методом, так как он дает вашей модели возможность обучаться на нескольких разделениях "поезд-тест". Это дает вам лучшее представление о том, насколько хорошо ваша модель будет работать с невидимыми данными. Удерживать - выход, с другой стороны, зависит только от одного сплита "поезд-тест".
МОДЕЛИРОВАНИЕ ДАННЫХ:
Алгоритмы машинного обучения
- Под присмотром
- Без присмотра
КОНТРОЛЬНОЕ ОБУЧЕНИЕ
Регрессия
- Линейная регрессия
- Классификация
- Логистическая регрессия
- Древо решений
БЕСПРОВОДНОЕ ОБУЧЕНИЕ
- Кластеризация
- Генеративные состязательные сети
- Автоэнкодеры
- Обнаружение аномалий
АНАЛИЗ ПОКАЗАТЕЛЕЙ ЭФФЕКТИВНОСТИ:
- Точность
- Матрица путаницы
- Точность
- Отзывать
- Оценка F1
- Средняя абсолютная ошибка
- BLEU
РАЗВЕРТЫВАНИЕ МОДЕЛИ:
Это последний шаг в конвейере обработки данных.
Развертывание - это метод, с помощью которого вы интегрируете модель машинного обучения в существующую производственную среду для принятия практических бизнес-решений на основе данных.
БИБЛИОТЕКИ, КОТОРЫЕ МОЖНО ИСПОЛЬЗОВАТЬ ДЛЯ НАУКИ ДАННЫХ -
- Scikit Learn (https://scikit-learn.org/stable/)
- Керас (https://keras.io/)
- Matplotlib (https://matplotlib.org/)
- Панды (https://pandas.pydata.org/)
- Numpy (https://numpy.org/)