Введение:
Машинное обучение (ML) — это категория алгоритмов, которая позволяет программным приложениям более точно прогнозировать результаты без явного программирования. Основная предпосылка машинного обучения заключается в создании алгоритмов, которые могут получать входные данные и использовать статистический анализ для прогнозирования выходных данных. ML — это приложение ИИ, которое предоставляет системам возможность автоматически обучаться и обучаться. Основное внимание уделяется разработке компьютерных программ, которые могут получать доступ к данным и использовать их для самостоятельного обучения.
Процесс обучения начинается с наблюдений или данных, таких как непосредственный опыт или инструкции, чтобы искать закономерности в данных и принимать лучшие решения в будущем на основе примеров, которые мы предоставляем. Основная цель состоит в том, чтобы позволить компьютерам автоматически обучаться без вмешательства или помощи человека и соответствующим образом корректировать действия.
Алгоритмы машинного обучения используются в самых разных приложениях, таких как фильтрация электронной почты и компьютерное зрение, где невозможно разработать алгоритм конкретных инструкций для выполнения задачи. Машинное обучение тесно связано с вычислительной статистикой, которая фокусируется на прогнозировании с использованием компьютеров. Изучение математической оптимизации поставляет методы, теорию и области применения в область машинного обучения.
Интеллектуальный анализ данных — это область исследования в рамках машинного обучения, которая фокусируется на исследовательском анализе данных посредством обучения без учителя. Это позволяет компьютерам справляться с новыми ситуациями с помощью анализа, самообучения, наблюдения и опыта.
Как это работает?
Алгоритм обучается с использованием обучающего набора данных для создания модели. Когда новые входные данные вводятся в алгоритм ML, он делает прогноз на основе модели.
Прогноз оценивается на точность, и если точность приемлема, алгоритм развертывается. Если точность неприемлема, то алгоритм обучается снова и снова с расширенным набором обучающих данных. Наш мозг тренируется, определяя особенности и закономерности полученных знаний/данных, что позволяет ему успешно идентифицировать или различать различные вещи.
Точно так же мы передаем знания/данные машине, эти данные делятся на две части, а именно: данные обучения и данные тестирования. Машина изучает их закономерности и особенности и обучается принимать решения, такие как идентификация, классификация или прогнозирование новых данных.
Классификации:
- Контролируемое машинное обучение. Программа обучается на предварительно определенном наборе обучающих примеров, которые затем облегчают ее способность делать точные выводы при получении новых данных.
- Неконтролируемое машинное обучение. Алгоритмы используются, когда информация, используемая для обучения, не классифицируется и не помечается. Алгоритму обучения не присваиваются никакие метки, что позволяет ему самостоятельно находить структуру на входе. Он используется для кластеризации населения в разные группы.
- Полууправляемое обучение. В анализах, где доступно много немаркированных данных, наряду с несколькими точками данных, которые были помечены, можно использовать для объединения и изучения каждого из них.
- Обучение с подкреплением. Алгоритмы машинного обучения с подкреплением — это метод обучения, который взаимодействует с окружающей средой, производя действия и обнаруживая ошибки или вознаграждения. Поиск методом проб и ошибок и отложенное вознаграждение являются наиболее важными характеристиками.
- Классификация. Входные данные делятся на два или более классов, и учащийся должен создать модель, которая относит невидимые входные данные к одному или нескольким (классификация с несколькими метками) этих классов. Обычно это решается контролируемым образом. Классификация включает в себя сбор данных и отнесение их к одной из нескольких категорий.
- Регрессия. В задачах этого типа выход представляет собой непрерывную величину. Проблемы регрессии можно решить с помощью алгоритмов контролируемого машинного обучения, таких как линейная регрессия, нейронные сети и гауссовы процессы. Регрессионный анализ пытается предсказать непрерывные количества на основе входных данных.
- Кластеризация. В основном это касается поиска структуры или шаблона в наборе неклассифицированных данных. Алгоритмы кластеризации будут обрабатывать данные и находить естественные кластеры (группы), если они существуют в данных.
Подробности:
- Данные. Существует два основных способа получения данных — ручной и автоматический. Данные, собранные вручную, содержат гораздо меньше ошибок, но для их сбора требуется больше времени. Автоматический подход дешевле — вы собираете все, что можете найти, и надеетесь на лучшее. Чрезвычайно сложно собрать хорошую коллекцию данных (обычно называемую набором данных)
- Функции. Также известны как параметры или переменные. Другими словами, это факторы, на которые машина должна обращать внимание.
- Алгоритмы. Это набор правил и статистических методов, используемых для изучения закономерностей на основе данных и извлечения из них важной информации.
- Модель. После обучения системы создается модель для прогнозирования. Модель — это конкретное представление, полученное из данных путем применения некоторого алгоритма ML. Модель также называется гипотезой
- Цель (метка): целевая переменная или метка — это значение, которое будет предсказано нашей моделью.
- Обучение. Идея состоит в том, чтобы предоставить набор входных данных (функций) и ожидаемых результатов (меток), поэтому после обучения у нас будет модель (гипотеза), которая затем сопоставит новые данные с одним из категории, по которым обучались. Это процесс, в котором обнаруживаются шаблоны набора данных.
- Прогноз. Как только наша модель будет готова, ей можно передать набор входных данных, на которые она предоставит прогнозируемый результат.
- Представление: как представить знания. Примеры включают деревья решений, наборы правил, экземпляры, графические модели, нейронные сети и SVM.
- Оценка: способ оценки программ-кандидатов (гипотез). Примеры включают точность, предсказание и отзыв, квадрат ошибки и вероятность.
- Машины опорных векторов. Это набор связанных контролируемых методов обучения, используемых для классификации и регрессии. Алгоритм обучения SVM представляет собой невероятностный, бинарный и линейный классификатор.
- Условная вероятность: событие может произойти только в том случае, если произошло другое событие. Следовательно, вероятность P (A и B) = P (A|B) * P (B)
- Теорема Байеса.Теорема Байеса утверждает, что о вероятности событий с учетом априорных знаний о событиях
- Искусственные нейронные сети. Это модель, основанная на наборе связанных единиц или узлов, называемых искусственными нейронами, которые грубо моделируют нейроны в биологическом мозге. Каждое соединение, подобно синапсам в биологическом мозге, может передавать информацию, сигнал от одного искусственного нейрона к другому. Искусственный нейрон, получивший сигнал, может обработать его и этот сигнал подключенными к нему дополнительными искусственными нейронами.
- Байесовские сети. Сеть доверия или направленная ациклическая графическая модель – это вероятностная графическая модель, представляющая набор случайных величин и их условную независимость с помощью ориентированного ациклического графа (DAG).
- Генетические алгоритмы. Это алгоритм поиска и эвристический метод, который имитирует процесс естественного отбора с использованием таких методов, как мутация и скрещивание, для создания новых генотипов в надежде найти хорошие решения данной проблемы.
- Деревья решений: создает модели классификации в виде древовидной структуры. Соответствующее дерево решений постепенно развивается, и в то же время оно разбивает большой набор данных на более мелкие подмножества. Конечным результатом является дерево с узлами решений и листовыми узлами. Узел решения имеет две или более ветвей. Листовой узел представляет собой классификацию или решение. Первый узел решения в дереве, который соответствует лучшему предсказателю, называется корневым узлом.
Преимущества:
- Легко определяет тенденции и закономерности
- Обработка многомерных и многовариантных данных
- Это позволяет сократить временной цикл и эффективно использовать ресурсы
- Обеспечивает постоянное улучшение качества
Недостатки:
- Предвзятость, время, ресурсы, оценки модели и этика
- Высокая подверженность ошибкам, сбор данных и интерпретация результатов
Приложения:
- Компьютерное зрение, биоинформатика и классификация последовательностей ДНК
- Банковское дело, страхование, правительство, обнаружение интернет-мошенничества и лингвистика
- Обработка естественного языка, оптимизация и компьютерные сети
- Анализ тональности, распознавание речи и распознавание синтаксических образов
- Розничная торговля, нефть, газ, телекоммуникации и аналитика поведения пользователей
- Сельское хозяйство, транспорт, аугментация и автоматизация
Советы разработчиков:
- Программирование на R, Python, SAS, C++, Java и MATLAB
- KNIME, Машинное обучение Amazon, CNTK, Deeplearning4j, ELKI, H2O, Keras, OpenNN, scikit-learn, Apache SystemML, TensorFlow, Torch / PyTorch, Weka / MOA, IBM Data Science Experience, Google Prediction API, IBM SPSS Modeler, Mathematica, MATLAB, Microsoft Azure ML и Data Шахтер
- https://developer.apple.com/machine-learning/
- https://github.com/josephmisiti/awesome-machine-learning
- https://www.sap.com/india/products/leonardo/machine-learning.html
- https://www.mathworks.com/discovery/machine-learning.html
- https://www.edx.org/course/machine-learning-1
- https://www.udacity.com/course/machine-learning--ud262
Вывод:
Это невероятно мощная технология. В ближайшие годы он обещает помочь решить некоторые из наших самых насущных проблем, а также открыть совершенно новые возможности для фирм, занимающихся наукой о данных. Надеюсь, эта статья помогла вам познакомиться с основами ML
Я собираюсь поделиться набором инструментов для разработчиков в разделе истории, посвященном разработчикам, но не стесняйтесь комментировать, делиться или присылать мне любые другие интересные видео или ссылки, которые вы могли найти. ✌ Это огромная возможность для работы. Я надеюсь, что вы нашли эту статью полезной.
Если вы считаете, что эта история была полезной или информативной, и считаете, что другие тоже должны ее увидеть, не забудьте нажать кнопку «хлопать»👏. До скорой встречи! 👋 Бубей…