Введение в машинное обучение

Содержание

История

В 1940-х годах нейрофизиолог Уоррен МакКаллох и математик Уолтер Питтс написали статью о нейронах и их работе. Поэтому они думают создать модель с использованием электрических цепей, которые работают так же, как нейроны, и рождается нейронная сеть.

В 1952 году Артур Сэмюэл, американский пионер в области компьютерных игр и искусственного интеллекта, создал одну игру под названием шашки, которая учится сама по себе при запуске. Артур сто раз играл в эту игру против машины.

Артур Сэмюэл ввел термин «машинное обучение» в 1959 году, когда работал в IBM. В 1960-х годах репрезентативной книгой по исследованиям в области машинного обучения была книга Нильссона об обучающихся машинах, посвященная в основном машинному обучению для классификации образов. В дальнейшем в 1980-х годах были представлены отчеты об использовании стратегий обучения, чтобы нейронная сеть научилась распознавать 40 символов (26 букв, 10 цифр и 4 специальных символа) с компьютерного терминала.

Сейчас, в 21 веке, многие предприятия признали, что машинное обучение потенциально увеличит их бизнес-цели и доходы. Из-за этого многие компании-гиганты проводят серьезные исследования в области машинного обучения и нейронных сетей. Так что они могут выжить в сегодняшней конкуренции.

Вот некоторые крупные проекты и исследования машинного обучения:

GoogleBrain (2010 г.) — Google Brain — исследовательская группа искусственного интеллекта глубокого обучения в Google. Компания Google Brain, созданная в начале 2010-х годов, объединяет открытые исследования в области машинного обучения с системной инженерией и вычислительными ресурсами масштаба Google.
AlexNet (2012) — AlexNet — это название сверточной нейронной сети (CNN), разработанной Алексом Крижевским и опубликованной совместно с Ильей Суцкевером и научным руководителем Крижевского Джеффри Хинтоном.
DeepFace (2014 г.) — это глубокая нейронная сеть, созданная Facebook, которая, по их утверждению, может распознавать людей с той же точностью, что и человек.
DeepMind (2014 г.) — эта компания была куплена Google и может играть в простые видеоигры на том же уровне, что и люди. В 2016 году ему удалось победить профессионала в игре Го, которая считается одной из самых сложных настольных игр в мире.
OpenAI (2015 г.) — это некоммерческая организация, созданная Илоном Маском и другими для создания безопасного искусственного интеллекта, который может принести пользу человечеству.
Платформа машинного обучения Amazon (2015 г.) — это часть Amazon Web Services, которая показывает, как большинство крупных компаний хотят участвовать в машинном обучении. Они говорят, что он управляет многими их внутренними системами, от регулярно используемых сервисов, таких как поисковые рекомендации и Alexa, до более экспериментальных, таких как Prime Air и Amazon Go.

Что такое машинное обучение?

Искусственный интеллект — это область информатики, которая позволяет машине действовать как человек и выполнять работу, связанную с человеком. Машинное обучение — это приложение или область искусственного интеллекта, которая учится на данных без дополнительного кода.

Машинное обучение — это тип искусственного интеллекта (ИИ), который позволяет машинам и компьютерам учиться без какой-либо дополнительной логики программирования. Машинное обучение — это компьютерная программа, которая автоматически растет и изменяется при воздействии новых данных.

Согласно Артуру Сэмюэлю: Машинное обучение — это область исследования, которая дает компьютерам возможность обучаться без явного программирования.

Том Митчелл сказал, что машинное обучение — это компьютерная программа, которая, как говорят, изучает форму опыта E в отношении задачи T и некоторых показателей производительности P, если его производительность по T, измеряемая P, улучшается с опытом E.

Область машинного обучения связана с вопросом о том, как создавать компьютерные программы, которые автоматически улучшаются с опытом.

Здесь,

Задача (T): Играть в сыр.

Показатель эффективности (P): процент игр, выигранных у соперника.

Опыт (E): количество сыгранных игр и количество тренировок.

Ex.

Предположим, ваша почтовая программа следит за тем, какое письмо вы отправляете или не помечаете как спам, и на основе этого определяет, как лучше подогнать спам. Какова задача T в этой настройке?

T= Классифицировать электронную почту как спам или не спам.

E= Наблюдение за тем, как вы помечаете электронные письма как спам или не спам.

P= Тогда число писем будет правильно классифицировано как спам или не спам.

Типы машинного обучения

Есть два типа машинного обучения.

Обучение под наблюдением:

Поскольку мы знаем, что машинное обучение учится на новых и существующих данных, поэтому, когда данные уже помечены, это называется обучением с учителем. В машинном обучении обучающие данные уже помечены, система знает ответ на конкретные данные и обучается на этих данных.

В контролируемом ML модели были даны независимые и зависимые данные. Основная цель этого алгоритма — иметь возможность обучаться, сравнивая его фактические выходные данные с обученными выходными данными, чтобы находить ошибки и соответствующим образом изменять модель. Алгоритмы контролируемого машинного обучения используют шаблоны и матрицы для прогнозирования значения неразмеченных данных.

Существует два типа алгоритмов обучения с учителем:

Регрессия
Классификация

Регрессия

Регрессия — это проблема, когда значение результата отличается или действительное значение. Регрессия не дает никаких меток из обучающих данных. Он используется для продолжения данных.

Бывший. В прогнозировании цен на дома, где мы можем рассчитать цену дома по площади дома.

Классификация

Классификация - это проблема, когда результат всегда будет исходить от классифицированной этикетки. Вывод поступает из предопределенной категории. Бывший. Да или Нет, Верно или Ложно, 0 или 1

Бывший. На данном графике X = спам, Y = не спам. Теперь любая почта прибудет, тогда она применит алгоритм и классифицирует почту как спам или не спам.

Обучение без учителя

Теперь во многих компаниях всем необходимо знать интерес клиентов к их бизнесу, на какой рынок мы должны ориентироваться для нашего бизнеса, рекомендации для пользователей. Для решения этих проблем используется неконтролируемое машинное обучение. В неконтролируемом обучении нет метки с обучающими данными. Сам алгоритм должен классифицировать данные в разных кластерах, определяя шаблоны из обучающих данных. Данные не помечены и не классифицированы в неконтролируемом обучении. Результат зависит от алгоритма кода.

Ниже приведены типы обучения без учителя.

Кластеризация
Ассоциация

Кластеризация

Кластеризация — это задача разделения совокупности или точек данных на несколько групп таким образом, чтобы точки данных в одних и тех же группах были более похожи на другие точки данных в той же группе и отличались от точек данных в других группах. При кластеризации мы группируем данные в ближайший соответствующий кластер.

В машинном обучении данные, находящиеся в одной группе, должны иметь схожие свойства и/или функции, в то время как данные в разных группах должны иметь сильно отличающиеся свойства и/или функции.

Ex.

Классифицируйте пользователей в разных кластерах, чтобы предоставить им полные и полезные медицинские данные.

Классифицировать рынок, чтобы продавать конкретный продукт на конкретном рынке.

Ассоциация

Интеллектуальный анализ ассоциативных правил находит интересные ассоциации и отношения среди больших наборов элементов данных. Это правило показывает, как часто набор элементов встречается в транзакции. Типичный пример — рыночный анализ (отсюда).

Правило ассоциации будет определять взаимосвязь между большим набором данных и показывать, какой элемент есть, а какой нет.

Бывший. Следующий набор продуктовых данных

{молоко, хлеб, панир, яйцо, торт, подгузник, детский крем}

{молоко, хлеб, торт}

{панир, яйцо}

{подгузник, детский крем}

{торт, подгузник, детский крем}

{молоко, хлеб}

{яйцо, торт}

В данном наборе данных, если покупатель покупает молоко, то он также будет покупать хлеб во всех случаях, так же как если покупатель покупает подгузник, то он также покупает детский крем. Таким образом, существует связь между подгузником и детским кремом.

Рыночный анализ — один из ключевых методов, используемых крупными компаниями для демонстрации взаимосвязей между товарами. Он позволяет розничным торговцам выявлять взаимосвязи между товарами, которые люди часто покупают вместе (отсюда).