Это действительно не так сложно. Поверьте мне.

Во-первых, вам нужны данные. Данных много, и вы хотите найти закономерности в данных.

Данные можно разделить на два типа: функции и цели. Функции — это столбцы данных, которые вы используете для прогнозов; цель — это то, что вы хотите, чтобы ИИ предсказал.

В идеальном мире следующий шаг не потребуется, но мы живем не в идеальном мире. Затем вы выполняете предварительную обработку, чтобы устранить любые проблемы с вашими данными и подготовить их для ввода в модель.

Теперь вы разделяете свои данные на данные обучения и тестирования (используются соотношения 70%:30% и 80%:20%). Модель машинного обучения, которую вы создадите позже, изучит закономерности в данных с помощью обучающего набора; набор тестов будет использоваться для проверки того, что модель способна делать правильные прогнозы. Когда модель не может найти шаблоны в обучающих данных, она потенциально может быть неспособна обобщать, что называется переоснащением и представляет собой серьезную проблему для специалистов по данным.

После разделения данных вы создаете свою модель. В таком языке, как Python (обычно используемый для науки о данных), многие модели были предварительно построены на основе математических алгоритмов (например, случайный лес, логистическая регрессия, K-ближайшие соседи). Все, что вам нужно, это оптимизировать гиперпараметры (гиперпараметры — это аргументы, добавляемые к моделям, которые изменяют их производительность). Существуют различные алгоритмы оптимизации, такие как RandomizedSearch и GridSearch. Затем результаты можно визуализировать с помощью таблицы, известной как матрица путаницы (показана ниже).

После оптимизации вашей модели все готово! Теперь дело за вами, что вы с ним сделаете. Применить его к большим данным? Развернуть его в Интернете? Перенастроить его для решения проблемы в сообществе? Возможности безграничны.