Неделя № 1 в машинном обучении

Рассказываю о своем пути к машинному обучению.

Что такое машинное обучение?

Машинное обучение — это ветвь искусственного интеллекта, основанная на идее о том, что система может учиться на данных, выявлять закономерности на основе данных и принимать решения без участия человека или с его минимальным вмешательством.

Типы машинного обучения

Контролируемое и неконтролируемое обучение

Обучение с учителем — обучение с использованием помеченных данных, то есть данных, в которых целевые переменные уже известны.

Обучение с учителем в основном делится на две категории:

Классификация — имеет дело с категориальными целевыми переменными (в основном). Алгоритм классификации помогает предсказать группу или класс, к которому принадлежит точка данных.
Регрессия — имеет дело с числовыми целевыми переменными, т.е. алгоритм регрессии предсказывает числовое значение целевой переменной на основе обучающих данных.

Обучение без учителя — обучение, которое тренируется на данных, которые не классифицированы и не помечены, т. е. алгоритм выполняет анализ данных без руководства и группирует некластеризованные данные в соответствии с их сходством.

Неконтролируемое обучение можно разделить на:

Кластеризация — помогает обнаружить закономерности в данных.
Ассоциация — поиск уникальных шаблонов, связанных с большим объемом данных между различными точками данных, например, предположение, что когда клиент покупает продукт А, он также склонен покупать продукт Б.

Обучение с подкреплением — широкая область машинного обучения, когда машина учится выполнять следующий шаг в среде, просматривая результаты уже выполненных действий. Он включает в себя как вознаграждение, так и наказание.

Показатели производительности в машинном обучении

Показатели производительности используются для измерения эффективности модели. используемые показатели производительности зависят от типа данных и требований. Различные используемые показатели производительности включают в себя:

Матрица путаницы — используется в моделях классификации, где известны фактические значения.

2. Точность —отношение истинно положительных результатов к общему количеству прогнозируемых положительных результатов
3. Полнота —доля истинно положительных результатов, предсказанных моделью.
4. Точность — соотношение положительных прогнозов к общему количеству сделанных прогнозов
5. Оценка F1 — ищет баланс между точностью и полнотой.

Предвзятость и дисперсия.

Высокое смещение означает, что модель очень проста и, следовательно, приводит к недообучению, когда она не может отразить сложность данных. С другой стороны, высокая дисперсия возникает, когда модель слишком хорошо работает с обученным набором данных, что приводит к переоснащению, т. е. модель слишком специфична для обучающих данных, но плохо работает на тестовых данных.

Важные ссылки

Вот и закончилась первая неделя. До встречи на неделе №2

Просмотры и исправления приветствуются