Машинное обучение: выбор модели машинного обучения

По мере того, как все больше компаний стремятся использовать свои данные с помощью прогнозирующих возможностей машинного обучения, они обнаруживают, что не существует универсального подхода к этой захватывающей технологии. Алгоритм машинного обучения, который вы выберете, зависит от размера, качества и типа данных, а также от графика проекта и ваших общих целей. Выбор правильного алгоритма машинного обучения придает контекст выводам, полученным из полученных прогнозов.

Ниже приведены несколько соображений, которые следует учитывать при запуске проекта машинного обучения.

Точность. Является ли целью вашего проекта определение наиболее точного результата или приближение удовлетворит потребности вашего проекта? Аппроксимация выходных данных может сократить время обработки и сохранить высокую производительность для больших наборов данных.

Время обучения. Необходимое время обучения зависит от алгоритма машинного обучения, а также от желаемого уровня точности.

Линейность.Многие алгоритмы машинного обучения предполагают, что входные данные являются линейными. Это означает, что эти модели предполагают, что классификации данных могут быть разделены по прямой линии или что данные следуют линейному тренду. Линейные модели можно быстро обучить, но предположение о том, что базовые данные являются линейными, может привести к снижению точности, если набор данных на самом деле следует нелинейному тренду.

Функции.Функции — это атрибуты вашего набора данных (представьте себе их как заголовки столбцов в электронной таблице), и большой набор функций также может снижать производительность модели машинного обучения.

Типы алгоритмов машинного обучения

После рассмотрения свойств ваших данных, а также требований и целей проекта вы можете начать сопоставлять эти требования с лучшей моделью машинного обучения. Описание нескольких различных типов алгоритмов машинного обучения можно найти ниже:

Линейная регрессия

Линейная регрессия — популярная и хорошо изученная модель, которую можно быстро обучить, что делает ее хорошей отправной точкой для проекта машинного обучения. Этот алгоритм может обеспечить точные прогнозы, но предполагает линейность данных (поэтому это может быть не лучшая модель для нелинейных наборов данных). Если это возможно и целесообразно для проекта, следует удалить выбросы из набора данных, чтобы повысить скорость и производительность. Модели линейной регрессии обеспечат результирующие выходные данные в непрерывном масштабе.

Логистическая регрессия

Подобно линейной регрессии, логистическая регрессия обычно может быть быстро обучена и дает очень точные результаты, особенно когда удаляются несвязанные функции или выбросы данных. В отличие от линейной регрессии, использование модели логистической регрессии приводит к дискретной классификации значений (т. е. истинно или ложно, спам или не спам) значений с использованием нелинейной функции по сравнению с предоставлением результатов на непрерывной шкале.

Деревья решений

В модели дерева решений представлены узлы решений, представляющие отдельные переменные. Эти узлы решений разделяются либо на другой узел решений и конечный узел, либо на два конечных узла. Листовые узлы представляют результат решения. Эти выходные данные используются для прогнозирования будущего. Модели дерева решений требуют небольшой подготовки данных и могут точно предсказать широкий диапазон результатов.

Бэггинг и случайный лес

Бэггинг — это метод, который создает среднее значение на основе нескольких моделей (обычно деревьев решений) из нескольких выборок обучающего набора данных. Новые данные проходят через все модели, а прогнозы усредняются с целью повышения точности вывода. В то время как бэггинг фокусируется на оптимальных результатах, Random Forest использует случайность для создания субоптимальных разбиений из узла принятия решений. Объединение прогнозов моделей бэггинга и случайного леса может обеспечить более точную оценку истинного выходного значения, повышая точность проекта.

Искусственная нейронная сеть

Искусственные нейронные сети моделируются после обучения в человеческом мозгу. Этот метод может быть направлен на распознавание сложных образов. Искусственная нейронная сеть создает соединение узлов, которые сопоставляют вход с выходом через один или несколько скрытых слоев. Это создает сложные детекторы признаков в нелинейной среде, выявляющие скрытые закономерности, которые было бы невозможно предсказать с помощью человеческого анализа.

Последние мысли

Ни один алгоритм машинного обучения не сможет решить все проблемы. Цели вашего проекта и доступные данные влияют на лучший подход к машинному обучению. Консультант может помочь вам в процессе постановки целей, чтобы лучше определить модель машинного обучения для достижения этой цели. Они могут определять потенциальные проблемы, такие как качество данных, и предлагать решения и реализации для преодоления проблем. Консультанты UDig помогают использовать исторические бизнес-данные для разработки модели, которая возвращает информацию, которая приводит к действенным результатам.

Изображения:
https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11
https://en.wikipedia.org/wiki/Artificial_neural_network#/media/File:Colored_neural_network.svg

Источники:
https://docs.microsoft.com/en-us/azure/machine-learning/studio/algorithm-choice
https://en .wikipedia.org/wiki/Искусственная_нейронная_сеть
https://www.digitaltrends.com/cool-tech/what-is-an-artificial-neural-network/
https:// в направленииdatascience.com/a-tour-of-the-10-top-algorithms-for-machine-learning-newbies-dde4edffae11