Введение:

Машинное обучение (ML) — это категория алгоритмов, которая позволяет программным приложениям более точно прогнозировать результаты без явного программирования. Основная предпосылка машинного обучения заключается в создании алгоритмов, которые могут получать входные данные и использовать статистический анализ для прогнозирования выходных данных. ML — это приложение ИИ, которое предоставляет системам возможность автоматически обучаться и обучаться. Основное внимание уделяется разработке компьютерных программ, которые могут получать доступ к данным и использовать их для самостоятельного обучения.

Процесс обучения начинается с наблюдений или данных, таких как непосредственный опыт или инструкции, чтобы искать закономерности в данных и принимать лучшие решения в будущем на основе примеров, которые мы предоставляем. Основная цель состоит в том, чтобы позволить компьютерам автоматически обучаться без вмешательства или помощи человека и соответствующим образом корректировать действия.

Алгоритмы машинного обучения используются в самых разных приложениях, таких как фильтрация электронной почты и компьютерное зрение, где невозможно разработать алгоритм конкретных инструкций для выполнения задачи. Машинное обучение тесно связано с вычислительной статистикой, которая фокусируется на прогнозировании с использованием компьютеров. Изучение математической оптимизации поставляет методы, теорию и области применения в область машинного обучения.

Интеллектуальный анализ данных — это область исследования в рамках машинного обучения, которая фокусируется на исследовательском анализе данных посредством обучения без учителя. Это позволяет компьютерам справляться с новыми ситуациями с помощью анализа, самообучения, наблюдения и опыта.

Как это работает?

Алгоритм обучается с использованием обучающего набора данных для создания модели. Когда новые входные данные вводятся в алгоритм ML, он делает прогноз на основе модели.

Прогноз оценивается на точность, и если точность приемлема, алгоритм развертывается. Если точность неприемлема, то алгоритм обучается снова и снова с расширенным набором обучающих данных. Наш мозг тренируется, определяя особенности и закономерности полученных знаний/данных, что позволяет ему успешно идентифицировать или различать различные вещи.

Точно так же мы передаем знания/данные машине, эти данные делятся на две части, а именно: данные обучения и данные тестирования. Машина изучает их закономерности и особенности и обучается принимать решения, такие как идентификация, классификация или прогнозирование новых данных.

Классификации:

  • Контролируемое машинное обучение. Программа обучается на предварительно определенном наборе обучающих примеров, которые затем облегчают ее способность делать точные выводы при получении новых данных.
  • Неконтролируемое машинное обучение. Алгоритмы используются, когда информация, используемая для обучения, не классифицируется и не помечается. Алгоритму обучения не присваиваются никакие метки, что позволяет ему самостоятельно находить структуру на входе. Он используется для кластеризации населения в разные группы.
  • Полууправляемое обучение. В анализах, где доступно много немаркированных данных, наряду с несколькими точками данных, которые были помечены, можно использовать для объединения и изучения каждого из них.
  • Обучение с подкреплением. Алгоритмы машинного обучения с подкреплением — это метод обучения, который взаимодействует с окружающей средой, производя действия и обнаруживая ошибки или вознаграждения. Поиск методом проб и ошибок и отложенное вознаграждение являются наиболее важными характеристиками.
  • Классификация. Входные данные делятся на два или более классов, и учащийся должен создать модель, которая относит невидимые входные данные к одному или нескольким (классификация с несколькими метками) этих классов. Обычно это решается контролируемым образом. Классификация включает в себя сбор данных и отнесение их к одной из нескольких категорий.
  • Регрессия. В задачах этого типа выход представляет собой непрерывную величину. Проблемы регрессии можно решить с помощью алгоритмов контролируемого машинного обучения, таких как линейная регрессия, нейронные сети и гауссовы процессы. Регрессионный анализ пытается предсказать непрерывные количества на основе входных данных.
  • Кластеризация. В основном это касается поиска структуры или шаблона в наборе неклассифицированных данных. Алгоритмы кластеризации будут обрабатывать данные и находить естественные кластеры (группы), если они существуют в данных.

Подробности:

  • Данные. Существует два основных способа получения данных — ручной и автоматический. Данные, собранные вручную, содержат гораздо меньше ошибок, но для их сбора требуется больше времени. Автоматический подход дешевле — вы собираете все, что можете найти, и надеетесь на лучшее. Чрезвычайно сложно собрать хорошую коллекцию данных (обычно называемую набором данных)
  • Функции. Также известны как параметры или переменные. Другими словами, это факторы, на которые машина должна обращать внимание.
  • Алгоритмы. Это набор правил и статистических методов, используемых для изучения закономерностей на основе данных и извлечения из них важной информации.
  • Модель. После обучения системы создается модель для прогнозирования. Модель — это конкретное представление, полученное из данных путем применения некоторого алгоритма ML. Модель также называется гипотезой

  • Цель (метка): целевая переменная или метка — это значение, которое будет предсказано нашей моделью.
  • Обучение. Идея состоит в том, чтобы предоставить набор входных данных (функций) и ожидаемых результатов (меток), поэтому после обучения у нас будет модель (гипотеза), которая затем сопоставит новые данные с одним из категории, по которым обучались. Это процесс, в котором обнаруживаются шаблоны набора данных.
  • Прогноз. Как только наша модель будет готова, ей можно передать набор входных данных, на которые она предоставит прогнозируемый результат.
  • Представление: как представить знания. Примеры включают деревья решений, наборы правил, экземпляры, графические модели, нейронные сети и SVM.
  • Оценка: способ оценки программ-кандидатов (гипотез). Примеры включают точность, предсказание и отзыв, квадрат ошибки и вероятность.
  • Машины опорных векторов. Это набор связанных контролируемых методов обучения, используемых для классификации и регрессии. Алгоритм обучения SVM представляет собой невероятностный, бинарный и линейный классификатор.
  • Условная вероятность: событие может произойти только в том случае, если произошло другое событие. Следовательно, вероятность P (A и B) = P (A|B) * P (B)
  • Теорема Байеса.Теорема Байеса утверждает, что о вероятности событий с учетом априорных знаний о событиях
  • Искусственные нейронные сети. Это модель, основанная на наборе связанных единиц или узлов, называемых искусственными нейронами, которые грубо моделируют нейроны в биологическом мозге. Каждое соединение, подобно синапсам в биологическом мозге, может передавать информацию, сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может обработать его и этот сигнал подключенными к нему дополнительными искусственными нейронами.

  • Байесовские сети. Сеть доверия или направленная ациклическая графическая модель – это вероятностная графическая модель, представляющая набор случайных величин и их условную независимость с помощью ориентированного ациклического графа (DAG).
  • Генетические алгоритмы. Это алгоритм поиска и эвристический метод, который имитирует процесс естественного отбора с использованием таких методов, как мутация и скрещивание, для создания новых генотипов в надежде найти хорошие решения данной проблемы.
  • Деревья решений: создает модели классификации в виде древовидной структуры. Соответствующее дерево решений постепенно развивается, и в то же время оно разбивает большой набор данных на более мелкие подмножества. Конечным результатом является дерево с узлами решений и листовыми узлами. Узел решения имеет две или более ветвей. Листовой узел представляет собой классификацию или решение. Первый узел решения в дереве, который соответствует лучшему предсказателю, называется корневым узлом.

Преимущества:

  • Легко определяет тенденции и закономерности
  • Обработка многомерных и многовариантных данных
  • Это позволяет сократить временной цикл и эффективно использовать ресурсы
  • Обеспечивает постоянное улучшение качества

Недостатки:

  • Предвзятость, время, ресурсы, оценки модели и этика
  • Высокая подверженность ошибкам, сбор данных и интерпретация результатов

Приложения:

  • Компьютерное зрение, биоинформатика и классификация последовательностей ДНК
  • Банковское дело, страхование, правительство, обнаружение интернет-мошенничества и лингвистика
  • Обработка естественного языка, оптимизация и компьютерные сети
  • Анализ тональности, распознавание речи и распознавание синтаксических образов
  • Розничная торговля, нефть, газ, телекоммуникации и аналитика поведения пользователей
  • Сельское хозяйство, транспорт, аугментация и автоматизация

Советы разработчиков:

Вывод:

Это невероятно мощная технология. В ближайшие годы он обещает помочь решить некоторые из наших самых насущных проблем, а также открыть совершенно новые возможности для фирм, занимающихся наукой о данных. Надеюсь, эта статья помогла вам познакомиться с основами ML

Я собираюсь поделиться набором инструментов для разработчиков в разделе истории, посвященном разработчикам, но не стесняйтесь комментировать, делиться или присылать мне любые другие интересные видео или ссылки, которые вы могли найти. ✌ Это огромная возможность для работы. Я надеюсь, что вы нашли эту статью полезной.

Если вы считаете, что эта история была полезной или информативной, и считаете, что другие тоже должны ее увидеть, не забудьте нажать кнопку «хлопать»👏. До скорой встречи! 👋 Бубей…