Мир наполнен большим количеством данных, таких как текст, музыка, видео, изображения и т. д. Анализ этих данных очень важен и важен для любого бизнеса, чтобы преобразовать эти данные в информацию, которая поможет бизнесу получить представление и тенденции. из него, чтобы принимать лучшие бизнес-решения, которые увеличат прибыль с меньшим риском. Объем генерируемых данных будет продолжать расти в ближайшие годы, и эти данные генерируются не только людьми, но и генерируются телефонами, компьютерами и другими устройствами, которые мы широко используем.

Традиционно люди анализировали данные, чтобы извлечь из них смысл, и адаптировали системы к изменениям. Поскольку объем данных, которые генерируются сегодня, превосходит способность людей анализировать и осмысливать их, мы все больше движемся к автоматизированным системам, которые могут самостоятельно изучать тенденции и скрытые закономерности в данных.

Я расскажу историю, чтобы вы поняли, как данные анализировались людьми без каких-либо систем. Был продавец фруктов, который каждый день в определенное время приходил на нашу улицу, чтобы продавать фрукты. Время, когда он посещает нашу улицу, очень удобно для меня, поэтому я каждый день покупал у него фрукты. Через несколько дней этот продавец фруктов перестал ходить на нашу улицу, и я совершенно забыл о нем, пока однажды не увидел того же продавца фруктов на другой улице. Я поздоровался и спросил его, почему он перестал ходить на нашу улицу, ответ, который дал этот продавец фруктов, был очень неожиданным и интуитивным.

Он сказал, что «люди на вашей улице много торгуются, и трудно продать фрукты с большой прибылью. Также я вижу те большие машины, которые припаркованы у домов на этой улице, поэтому я понимаю, что люди здесь богатые, которые могут делать большие покупки, и каждый покупатель на этой улице ежедневно покупает одни и те же фрукты, что помогло бы мне управлять своими запасами без потерь. ».

При наличии таких данных, как поведение клиентов, демографические характеристики потребителей и покупательские привычки клиентов, продавец фруктов может принимать или изменять свои решения для улучшения своего бизнеса. Этому продавцу фруктов легко и возможно извлечь смысл из доступных данных, потому что он ежедневно взаимодействует с каждым покупателем, и решение было принято на основе только одного местоположения.

Например, подумайте о Walmart, у которого много магазинов в каждом городе и который совершает более миллиона транзакций в день. Люди не могут анализировать каждую транзакцию и понимать поведение клиентов в случае такого огромного объема данных. Итак, мы передаем эти данные алгоритму машинного обучения и позволяем ему генерировать результаты для конкретных бизнес-вопросов, которые у нас есть.

Мы попытаемся понять определение и приложения машинного обучения в этой статье, начиная с определения машинного обучения и продолжая с различными приложениями алгоритмов машинного обучения, которые влияют на нашу повседневную жизнь.

Введение в машинное обучение

Вот определение машинного обучения согласно Артуру Сэмюэлю. В 1959 году Артур Сэмюэл определил машинное обучение как «область исследования, которая дает компьютерам возможность учиться без явного программирования».

В более широком смысле машинное обучение — это научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для эффективного выполнения задачи без необходимости явных инструкций, полагаясь вместо этого на скрытые закономерности и выводы. В частности, машинное обучение приходит нам на помощь в те моменты, когда написание компьютерной программы очень сложно и сложно для выполнения некоторых задач, таких как распознавание объектов и рукописного текста, понимание речи и т. д.,

Таким образом, вместо того, чтобы пытаться написать программу, мы разрабатываем алгоритм, который компьютер использует для просмотра сотен и тысяч образцов и самостоятельно изучает закономерности и строит математический режим, т. е. мы создаем машины для изучения определенных закономерностей, а затем делать прогнозы, используя эти изученные шаблоны на ранее невиданных данных.

Что такое алгоритм и модель?

Алгоритм — это набор правил или последовательностей шагов, написанных на языке программирования. Модели — это четко определенные вычисления, сформированные в результате алгоритма, который принимает некоторое значение или набор значений в качестве входных данных и создает некоторое значение или набор значений в качестве выходных данных. Я нашел хорошее объяснение, которое помогает нам понять назначение алгоритма и модели на Quora, следующим образом.

Пример

Торговый автомат — это модель, которая принимает деньги на вход и дает вам продукт на выходе. Алгоритм — это то, что используется для обучения модели, все решения, которые модель должна принимать на основе заданных входных данных, чтобы дать ожидаемый результат. Например, алгоритм будет решать на основе долларовой стоимости предоставленных денег и выбранного вами продукта, достаточно ли денег или нет, какой баланс вы должны получить и так далее.

Использование в режиме реального времени:

Теперь давайте попробуем понять, как можно применять машинное обучение в режиме реального времени на примере фильтрации спама в электронной почте.

Если мы хотим написать программу для классификации писем со спамом и сообщений, не являющихся спамом, мы должны вести список слов, которые чаще всего встречаются в сообщениях со спамом. Когда приходит новое электронное письмо, электронное письмо разбивается на отдельные слова, и если электронное письмо содержит значительное количество спам-слов, электронное письмо классифицируется или классифицируется как спам.

Хотя приведенная выше стратегия может дать довольно хорошие результаты (скажем, обнаружение спама с точностью 85%), точность в значительной степени зависит от списка слов, который мы поддерживаем, и от точного порога, который мы выбираем для классификации электронной почты как спама.

Подумайте о том, насколько длинным может стать этот список, если мы будем делать это вручную. Кроме того, учитывая множество разных языков, было бы очень сложно каждый раз поддерживать разные списки слов для каждого языка. Скажем, если новый спамер начал писать одно и то же слово по-другому, например, Won как W0n, это слово нужно идентифицировать и обновить список вручную.

В машинном обучении стратегия состоит в том, чтобы выучить список слов и порог. На самом деле, в дополнение к тому, какие слова считаются спамом, мы могли бы также узнать, насколько спамным является каждое слово. Это рассматривает каждое отдельное слово спам-сообщения как возможное подозреваемое. Алгоритм продолжает обучение, когда приходит каждое новое электронное письмо, и обновляет модель, то есть меняет вероятности существующих спам-слов и добавляет новые слова в список. Это уменьшает объем ручной работы, и один и тот же алгоритм можно применить к любому языку.

Модели машинного обучения в основном используются для двух целей.

1. Прогноз: делайте прогнозы о будущем на основе прошлых данных.

2. Вывод: Раскройте скрытые закономерности.

более формальное определение алгоритмов, изучаемых в области машинного обучения, данное Томом М. Митчеллом: «Говорят, что компьютерная программа учится на опыте E в отношении некоторого класса задачи T и показатель производительности P, если его производительность при выполнении задач в T, измеряемая P, улучшается с опытом E».

Например, рассмотрим наш пример с фильтрацией электронной почты. Задача здесь состоит в том, чтобы классифицировать, какое электронное письмо является спамом, а какое нет, модель здесь получает опыт, наблюдая, как вы помечаете электронную почту как спам или нет, и измеряется доля электронных писем, правильно классифицированных как спам. как выполнение алгоритма.

Как сегодня используется машинное обучение?

Сегодня мы видим машинное обучение в продуктах, которые нас окружают. Такие вещи, как пометка людей и объектов внутри фотографий, явно связаны с машинным обучением. Возможность рекомендовать следующее видео также явно основана на машинном обучении. Самым большим примером является поиск Google, который также управляется многими системами машинного обучения от понимания текста, который мы запрашиваем, до корректировки результатов на основе наших личных интересов.

Сегодня непосредственные приложения машинного обучения уже довольно широки, включая распознавание изображений, обнаружение мошенничества и системы рекомендаций, а также текстовые и речевые системы. Эти мощные возможности могут быть применены в самых разных областях, от диабетической ретинопатии и обнаружения рака кожи до розничной торговли, а также в транспорте в виде самостоятельных парковок и беспилотных автомобилей.

Алгоритмы машинного обучения

Двумя популярными типами алгоритмов машинного обучения являются контролируемые и неконтролируемые алгоритмы. На рисунке ниже представлена ​​высокоуровневая визуализация машинного обучения.

Контролируемое обучение:

Обучение с учителем — это область машинного обучения, в которой алгоритм получает как входные данные, так и метки для обучения модели. Обучение под наблюдением снова подразделяется на проблемы регрессии и проблемы классификации.

Неконтролируемое обучение:

Неконтролируемое обучение — это область машинного обучения, в которой алгоритм получает только входные данные и обучается находить структуру данных и выявлять скрытые закономерности в данных путем группировки входных выборок по разным категориям с использованием различных методов, которые мы рассмотрим в моей статье. будущие посты.

Обучение с подкреплением:

Обучение с подкреплением является важным типом машинного обучения, поскольку агент будет учиться у окружающей среды, взаимодействуя с ней и получая вознаграждение (положительное или отрицательное) за выполнение действий.

Это был всего лишь общий обзор машинного обучения и некоторых его приложений. В будущей серии статей мы получим представление о различных шагах, которые можно выполнить в машинном обучении.