Рассказываю о своем пути к машинному обучению.
Что такое машинное обучение?
Машинное обучение — это ветвь искусственного интеллекта, основанная на идее о том, что система может учиться на данных, выявлять закономерности на основе данных и принимать решения без участия человека или с его минимальным вмешательством.
Типы машинного обучения
Контролируемое и неконтролируемое обучение
- Обучение с учителем — обучение с использованием помеченных данных, то есть данных, в которых целевые переменные уже известны.
Обучение с учителем в основном делится на две категории:
- Классификация — имеет дело с категориальными целевыми переменными (в основном). Алгоритм классификации помогает предсказать группу или класс, к которому принадлежит точка данных.
- Регрессия — имеет дело с числовыми целевыми переменными, т.е. алгоритм регрессии предсказывает числовое значение целевой переменной на основе обучающих данных.
- Обучение без учителя — обучение, которое тренируется на данных, которые не классифицированы и не помечены, т. е. алгоритм выполняет анализ данных без руководства и группирует некластеризованные данные в соответствии с их сходством.
Неконтролируемое обучение можно разделить на:
- Кластеризация — помогает обнаружить закономерности в данных.
- Ассоциация — поиск уникальных шаблонов, связанных с большим объемом данных между различными точками данных, например, предположение, что когда клиент покупает продукт А, он также склонен покупать продукт Б.
Обучение с подкреплением — широкая область машинного обучения, когда машина учится выполнять следующий шаг в среде, просматривая результаты уже выполненных действий. Он включает в себя как вознаграждение, так и наказание.
Показатели производительности в машинном обучении
Показатели производительности используются для измерения эффективности модели. используемые показатели производительности зависят от типа данных и требований. Различные используемые показатели производительности включают в себя:
- Матрица путаницы — используется в моделях классификации, где известны фактические значения.
2. Точность —отношение истинно положительных результатов к общему количеству прогнозируемых положительных результатов
3. Полнота —доля истинно положительных результатов, предсказанных моделью.
4. Точность — соотношение положительных прогнозов к общему количеству сделанных прогнозов
5. Оценка F1 — ищет баланс между точностью и полнотой.
Предвзятость и дисперсия.
Высокое смещение означает, что модель очень проста и, следовательно, приводит к недообучению, когда она не может отразить сложность данных. С другой стороны, высокая дисперсия возникает, когда модель слишком хорошо работает с обученным набором данных, что приводит к переоснащению, т. е. модель слишком специфична для обучающих данных, но плохо работает на тестовых данных.
Важные ссылки
- https://medium.com/@randylaosat/a-beginners-guide-to-machine-learning-dfadc19f6caf
- https://medium.com/@MohammedS/performance-metrics-for-classification-problems-in-machine-learning-part-i-b085d432082b
- https://medium.com/analytics-vidhya/elucidating-bias-variance-under-fitting-and-over-fitting-273846621622
- https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d
Вот и закончилась первая неделя. До встречи на неделе №2
Просмотры и исправления приветствуются