Рассказываю о своем пути к машинному обучению.

Что такое машинное обучение?

Машинное обучение — это ветвь искусственного интеллекта, основанная на идее о том, что система может учиться на данных, выявлять закономерности на основе данных и принимать решения без участия человека или с его минимальным вмешательством.

Типы машинного обучения

Контролируемое и неконтролируемое обучение

  • Обучение с учителем — обучение с использованием помеченных данных, то есть данных, в которых целевые переменные уже известны.

Обучение с учителем в основном делится на две категории:

  1. Классификация — имеет дело с категориальными целевыми переменными (в основном). Алгоритм классификации помогает предсказать группу или класс, к которому принадлежит точка данных.
  2. Регрессия — имеет дело с числовыми целевыми переменными, т.е. алгоритм регрессии предсказывает числовое значение целевой переменной на основе обучающих данных.
  • Обучение без учителя — обучение, которое тренируется на данных, которые не классифицированы и не помечены, т. е. алгоритм выполняет анализ данных без руководства и группирует некластеризованные данные в соответствии с их сходством.

Неконтролируемое обучение можно разделить на:

  1. Кластеризация — помогает обнаружить закономерности в данных.
  2. Ассоциация — поиск уникальных шаблонов, связанных с большим объемом данных между различными точками данных, например, предположение, что когда клиент покупает продукт А, он также склонен покупать продукт Б.

Обучение с подкреплением — широкая область машинного обучения, когда машина учится выполнять следующий шаг в среде, просматривая результаты уже выполненных действий. Он включает в себя как вознаграждение, так и наказание.

Показатели производительности в машинном обучении

Показатели производительности используются для измерения эффективности модели. используемые показатели производительности зависят от типа данных и требований. Различные используемые показатели производительности включают в себя:

  1. Матрица путаницы — используется в моделях классификации, где известны фактические значения.

2. Точность —отношение истинно положительных результатов к общему количеству прогнозируемых положительных результатов
3. Полнота —
доля истинно положительных результатов, предсказанных моделью.
4. Точность —
соотношение положительных прогнозов к общему количеству сделанных прогнозов
5. Оценка F1
— ищет баланс между точностью и полнотой.

Предвзятость и дисперсия.

Высокое смещение означает, что модель очень проста и, следовательно, приводит к недообучению, когда она не может отразить сложность данных. С другой стороны, высокая дисперсия возникает, когда модель слишком хорошо работает с обученным набором данных, что приводит к переоснащению, т. е. модель слишком специфична для обучающих данных, но плохо работает на тестовых данных.

Важные ссылки

  1. https://medium.com/@randylaosat/a-beginners-guide-to-machine-learning-dfadc19f6caf
  2. https://medium.com/@MohammedS/performance-metrics-for-classification-problems-in-machine-learning-part-i-b085d432082b
  3. https://medium.com/analytics-vidhya/elucidating-bias-variance-under-fitting-and-over-fitting-273846621622
  4. https://towardsdatascience.com/supervised-vs-unsupervised-learning-14f68e32ea8d

Вот и закончилась первая неделя. До встречи на неделе №2

Просмотры и исправления приветствуются