ну, мне пришлось ждать месяца 2-3, чтобы понять, что это значит. Раньше я думал, что машинное обучение — это что-то вроде процесса шифрования, который трудно понять всего год назад. Так или иначе, затем я наткнулся на этот блестящий учебник, сделанный DanB для Kaggle. Я поделюсь ссылкой на этот учебник внизу этой страницы. Это что-то похожее на копирайтинг, но для меня это приносит много пользы. Я буду ясно понимать концепции, а также вы получите другую точку зрения на то, что вы уже знаете.

Предположим, вы профессиональный бизнесмен, инвестирующий в фондовый рынок. У этого парня есть собственная теория покупки акций, основанная на определенных прошлых событиях. С точки зрения науки о данных у этого человека есть предопределенный набор правил (который является моделью), и он действует, основываясь на этом. Но поскольку он делает это вручную, существует определенный предел, который он может проанализировать. И у этой модели, безусловно, есть недостатки, поскольку его набор правил был построен на основе прошлых данных, которые может использовать человеческий мозг.

А теперь представьте, как наука о данных может помочь этому человеку… вышеуказанная модель может быть протестирована с огромными наборами данных, которые находятся за пределами возможностей человеческого мозга… новые зависимости будут сливаться во время анализа больших данных… в целом будет сложная модель, которая за пределами возможностей человеческого мозга или, скорее, потребуются годы, чтобы человек придумал… эта модель теперь идеальна и будет точно предсказывать цены акций… ну, машинное обучение работает так же…

В машинном обучении простейшая модель называется деревом решений. Это базовая модель, которая ведет к большим моделям.

Это простое дерево решений разделит дома только на две категории. Если в доме более 2 комнат, прогнозируемая цена высока. Теперь как же мы пришли к такому выводу, основываясь на исторических данных.

Мы берем набор исторических данных и анализируем их до тех пор, пока не будут зафиксированы определенные закономерности. DanB поясняет: «Этот этап выделения шаблонов из данных называется подгонкой или обучением модели. Данные, используемые для соответствия модели, называются данными для обучения. После того, как модель подобрана, вы можете применить ее к новым данным, чтобы прогнозировать …..”

Теперь, возвращаясь к основному дереву решений на картинке выше, мы, очевидно, понимаем, что количество спальных комнат само по себе не может предсказать цену дома. В дереве решений должны быть другие переменные, такие как местоположение, количество ванных комнат, размер участка. Это называется включением новых факторов в дерево решений или разделением.

Прогноз находится в нижней части дерева. Это также называется листом. Теперь, как вы прогнозируете цену дома с новыми данными? Вы в основном вливаете данные в дерево решений, затем данные разбиваются на факторы, а затем попадают на лист. Это ваш прогноз.

Поэтому, не тратя время на книги или PDF-файлы в Интернете, перейдите по этой ссылке: https://www.kaggle.com/learn/machine-learning.

Машинное обучение часто классифицируют как подобласть ИИ, но это не точно, думайте о машинном обучении как о средстве построения моделей данных.

По сути, машинное обучение включает в себя математические модели, которые изучают данные. Модели были созданы на основе старых данных или, скорее, были приспособлены к ранее просмотренным данным. Теперь эта модель будет использоваться для прогнозирования и понимания аспектов новых наблюдаемых данных.

Категории машинного обучения
машинное обучение можно разделить на два основных типа: обучение с учителем и обучение без учителя.

Обучение с учителем включает в себя моделирование взаимосвязи между измеренными характеристиками данных и некоторыми метками, связанными с данными; как только эта модель определена, ее можно использовать для применения меток к новым неизвестным данным. (Руководство по науке о данных Python Джейка ВандерПласа)

Неконтролируемое обучение включает в себя моделирование характеристик набора данных без привязки к какому-либо ярлыку и часто описывается как позволение набору данных говорить самому за себя. Эти модели включают такие задачи, как кластеризация и уменьшение размерности. Алгоритмы кластеризации идентифицируют отдельные группы данных, в то время как алгоритмы уменьшения размерности ищут более краткие представления данных. (Руководство по науке о данных Python, Джейк ВандерПлас)