Начало работы с машинным обучением: 4 основные модели, которые нужно знать

Чтобы лучше понять модели, представленные в этой статье, а также увидеть их реализацию на Python, я предлагаю вам прочитать блокнот Азбука машинного обучения: 4 основных модели на Kaggle.

Введение

Машинное обучение определенно изменило многие отрасли по всему миру. После того, как OpenAI выпустила свой недавний инструмент ChatGPT, многие энтузиасты и новички начали говорить об ИИ и его возможном влиянии на общество.

Благодаря вниманию, вызванному всеми модными словечками и новостями, многие люди в последнее время открывают для себя мир машинного обучения и интересуются тем, как оно работает, или даже тем, как создавать свои собственные модели.

В этой статье я кратко познакомлю вас с четырьмя наиболее важными моделями, о которых должен знать каждый новичок в науке о данных и машинном обучении: линейная регрессия, логистическая регрессия, деревья решений и K-средние.

Машинное обучение и ИИ быстро меняют наше общество и революционизируют многие отрасли и рынки. Благодаря обилию данных, доступных сегодня, машины могут извлекать идеи и распознавать закономерности, которые людям было бы почти невозможно обнаружить невооруженным глазом, что делает это захватывающим предметом для изучения и приобретения знаний.

Несмотря на то, что огромное количество алгоритмов и методов машинного обучения поначалу может показаться ошеломляющим, понимание этих четырех моделей будет намного проще для понимания более сложных и продвинутых концепций.

Давайте начнем!

Линейная регрессия

Линейная регрессия, безусловно, самая идеальная отправная точка для новичка!

Это тип алгоритма обучения с учителем, что означает, что мы должны иметь в виду целевую переменную при построении модели линейной регрессии для прогнозов. Эта модель используется для прогнозирования выходных данных непрерывных переменных на основе связи целевой переменной с одним или несколькими входными функциями.

Модели линейной регрессии строятся на предположении, что целевая переменная Y имеет линейную связь с независимыми признаками X, которую можно смоделировать как прямую линию.

Формула простой линейной регрессии:

Y = mX + b

Где Y представляет выход — целевую переменную — , X — независимую функцию — также называемую входом предиктора — , в то время как m — предполагаемый наклон, а b — предполагаемое пересечение.

Наклон (m) указывает скорость, с которой изменяется y на каждую единицу увеличения или уменьшения X. Предполагая, например, что m = 2, предполагается, что на каждую единицу увеличения X ожидается, что y увеличится на 2 единицы.

Точка пересечения (b) представляет значение y, когда X = 0. Это точка, в которой линия пересекает ось y.

Задача модели линейной регрессии состоит в том, чтобы найти оптимальные значения для m и b, чтобы сделать прогнозы значений целевой переменной y для любого заданного значения X.

Модели линейной регрессии широко используются в таких областях, как экономика, финансы, машиностроение и многих других. Он способен предсказывать цены на дома, автомобили, прогнозировать продажи, цены на акции и т. д.

Логистическая регрессия

Логистическая регрессия также является алгоритмом обучения с учителем. Однако вместо того, чтобы подбирать прямую линию к данным, мы подгоняем S-образную кривую, называемую сигмовидной, для прогнозирования бинарных результатов на основе одного или нескольких входных признаков.

Он также предполагает линейную связь между целевой переменной, которую мы хотим предсказать, и независимой функцией. Результатом модели логистической регрессии является значение 0,0 или 1,0, указывающее вероятность события y — например, вероятность сдачи экзамена — по сравнению с характеристикой X — часами обучения.

Формула логистической регрессии:

p(y = 1 | x) = 1 ÷ 1 + exp(-(β₀+ β₁x₁ + β₂x₂ + … + βₚxₚ))

Где p(y = 1 | x) — вероятность того, что целевая переменная y примет значение 1 при заданных значениях предикторов x₁, x₂,…, xₚ. Коэффициенты β — это параметры модели логистической регрессии, которые оцениваются на основе данных, они являются оптимизаторами для наилучшего соответствия логарифмических шансов.

Модели логистической регрессии могут использоваться в здравоохранении для прогнозирования вероятности развития у пациентов определенных заболеваний, в финансах для прогнозирования вероятности дефолта, в маркетинге для прогнозирования вероятности покупки клиентом продукта на основе демографических данных и т. д.

Древо решений

Модель дерева решений — это мощный и интуитивно понятный алгоритм обучения с учителем, широко используемый как для задач классификации, так и для задач регрессии. Он получил свое название от древовидной структуры, на которой он построен, разделенной на внутренние узлы для оценки атрибутов и присвоения им значений, которые следуют по разным путям — ветвям — до тех пор, пока в конечном итоге не дойдут до конечного узла, что является прогнозируемым результатом. .

Деревья решений чрезвычайно легко интерпретировать и визуализировать. Они также могут обрабатывать пропущенные значения и менее чувствительны к выбросам. Еще одним преимуществом является тот факт, что модель способна фиксировать нелинейные отношения между входными функциями и выходной переменной, что позволяет фиксировать сложные взаимодействия.

Поскольку он может выполнять задачи как классификации, так и регрессии, он используется в различных отраслях для многих видов деятельности, таких как инвестиции, риск дефолта, здравоохранение и т. Д.

K-средние

K-Means — это неконтролируемая модель, что означает, что она изучает шаблоны из немаркированных данных. В этом случае нет целевой переменной, для которой модель должна предсказывать результаты.

K-Means — это алгоритм кластеризации, который используется для выявления шаблонов в данных и группировки похожих точек данных вместе на основе их близости друг к другу.

Он работает путем случайного выбора числа K центроидов, которые являются просто центром каждого кластера, средним арифметическим точек данных, назначенных этому конкретному кластеру.

Целью модели K-средних является определение определенных подмножеств данных, которые являются значимыми и полезными. Он широко используется в розничной торговле для целей сегментации клиентов, разделяя общую базу клиентов на отдельные группы со схожими характеристиками, чтобы облегчить нацеливание на каждую группу идеальных продуктов, услуг и маркетинговых стратегий.

Заключение

В заключение, машинное обучение — это быстро развивающаяся область, которая произвела революцию во многих отраслях и процессах принятия решений по всему миру. Это захватывающая тема для изучения и работы, поскольку она предлагает бесконечные возможности для исследований и инноваций. С увеличением доступности больших наборов данных и мощных вычислительных ресурсов.

В целом, это увлекательная и динамичная область с большими перспективами на будущее. Независимо от того, являетесь ли вы исследователем, разработчиком или просто интересуетесь этой захватывающей областью, сейчас самое подходящее время, чтобы принять участие и изучить возможности машинного обучения.

Эта статья является лишь кратким объяснением того, как работают эти модели. В своей записной книжке на Kaggle Азбука машинного обучения: 4 основные модели я немного глубже погружаюсь в детали каждой из них и демонстрирую практическое применение этих моделей на языке Python. Я настоятельно рекомендую вам взглянуть на это.

Спасибо за чтение,

Луис Фернандо Торрес

ЛинкедИн

Каггл

Вы идентифицируете себя как латиноамериканца и работаете в области искусственного интеллекта или знаете кого-то из латиноамериканца и работает в области искусственного интеллекта?

Зарегистрируйтесь в нашем каталоге и станьте участником форума наших участников: https://forum.latinxinai.org/
Станьте автором публикации LatinX in AI, написав нам по адресу [email protected].
Узнайте больше на нашем сайте: http://www.latinxinai.org/

Не забудьте нажать 👏 ниже, чтобы помочь поддержать наше сообщество — это очень много значит!

Спасибо :)