Машинное обучение долгое не очень техническое чтение.

Устройства, простота в использовании, современные технологии, Интернет, оперативность — вот некоторые из терминов, которые люди и мы постоянно использовали для обозначения того, что происходит сегодня, в другие времена технологии были далекими даже от басен и историй, которых следует опасаться, роботы, которые закончились с планетой, они похитили людей и разрушили целые города лазерными лучами, которые исходили из их глаз, эти упоминания приходят как очень небольшая часть привилегированных людей, которые видят компьютер и системы в действии в те дни, остальные только знают об этом через научно-фантастические фильмы, книги, радио и другие средства массовой информации.

Прошло время, и разрыв между вымыслом и технологиями в нашем образе жизни сократился, несколько сред, таких как банки, клиники, торговые центры, супермаркеты, интегрировали вещи, о которых мы раньше могли только мечтать, производственные процессы включили в себя преимущества, которые упразднили одни рабочие места и создали другие и также профессии и образование все еще пытаются двигаться со скоростью происходящих событий.

Но что происходит сегодня?

Мы являемся миром, связанным и движимым кодом, 58% людей на планете подключены к Интернету, для этого мы используем самые разные устройства, со смартфоном в качестве нашего основного актера, который эволюционировал, миниатюризируя свои компоненты, достигая вехи поместить в наши карманы высокопроизводительный компьютер, что несколько десятилетий назад было трудно представить, используя эту способность, чтобы знать вещи:

Кто это?
Как это называется?
Сколько это стоит?
Кто это может?
Где это находится?
Как мне это получить?
Что он сказал?

На все эти вопросы есть ответ и через машины мы узнаем.

Позиционеры и камеры определяют, пересекли ли вы этот красный свет, знают номер вашего номерного знака и отмечают время, когда вы опаздывали к врачу и поэтому прилетели. Приложения на вашем мобильном телефоне, которые предлагают вам цены на заправочных станциях вокруг вас и позволяют вам выбрать, какая из них дает вам лучшую цену для заправки вашего автомобиля. Социальные сети, которые сообщают вам за секунды новости о человеке, который умер или только что заболел.

День за днем кажется, что мы можем получить доступ ко всему в любое время, мы видим, как далекие события кажутся такими близкими, все такими неизбежными (вирусы, болезни, войны, насилие). Долгое и мучительное ожидание ответа на письмо перешло на секунды, пока кто-то видит и отвечает в чате тем, что мы только что пишем, над нами довлеет непосредственность.

Большая проблема Большие данные

Взаимосвязанный и непосредственный мир генерирует внушительные объемы информации, давайте посмотрим на следующем изображении проблеск данных, которые создаются каждую минуту.

Эта информация начала задавать нам вопросы и вызывать постоянное беспокойство. Какой процесс нам нужен? какие специалисты и как их обучить обрабатывать весь объем данных, которые мы производим, чтобы начать находить ответы для нашей собственной выгоды.

Системы хранения изменились, и облако, которое позволяет нам не полагаться на приобретение физического оборудования для хранения или обработки информации, расширило наши возможности для начала накопления и интерпретации полученных данных, медицинских записей и диагностических изображений, записей о входе и выходе сотрудников, данных о заработной плате, трафике. , погода, реакции в социальных сетях и бесчисленные данные, созданные пользователями, изучаются в процессе интеллектуального анализа данных в поисках шаблонов, которые определяют поведение и отвечают на вопросы или демонстрируют доказательства, которые мы не смогли найти вручную самостоятельно.

Для этого интеллектуального анализа данных требуется главное действующее лицо, в масштабах, которые мы видим в этой статье, практически невозможно выполнить такой процесс с использованием людей, и именно здесь мы начинаем обучать вычислительные модели с использованием алгоритмов, которые мы выполняем на физических компьютерах и в облаке этот термин можно слышать постоянно и казаться модным, что произошло, потому что теперь так легко арендовать суперкомпьютеры с большим хранилищем под рукой у всех, чтобы провести исследование на кластере данных.

Мы просто пытаемся понять и найти практическое и ответственное применение, в то время как дебаты о конфиденциальности сгенерированных данных становятся все более актуальными и применяются к этому чуду, которое мы создали, не превращаясь в нашего злейшего врага, но как работает процесс машинного обучения. ?

Мы будем использовать ссылку на вход в квартиру, где швейцар занимается предоставлением доступа посетителям, а также сообщает каждому дому о запросах, поступающих из внешнего мира, давайте начнем:

1 Наборы данных

Если в мире мы собираем так много информации каждую минуту, набор данных в нашем упражнении будет иметь свойства и структуру в соответствии с началом его обработки, в рамках некоторых характеристик мы будем иметь, например:

Жители
Посетители
Транспорт
Почта

Каждый из них будет иметь структуру, определяемую полями, которые могут быть числами, датами, текстами, сообщениями, которые могут быть включены в каждое из них. Текущая мощность набора данных заключается в адаптации к изменениям, поэтому, если нам нужны какие-либо характеристики, мы могли бы включить это позже.

Еще одна сила наборов данных в машинном обучении заключается в том, чтобы в любое время включать данные другого типа, такие как трафик или климат в месте, где расположен кондоминиум.

2 Подготовка данных

Если у нас есть набор данных, мы должны начать организовывать его в соответствии со шкалой данных, их происхождение (если они поступают из разных источников), чтобы подготовить данные нашего кондоминиума, которые мы рассмотрим:

Дубликаты
Опечатки или другие виды ошибок данных
Обработка несуществующих значений (без даты, без описания, например, без имени резидента и т. д.)
Рандомизируйте данные, этот процесс устраняет эффект обработки данных в том же порядке, в котором данные были собраны, эталоном является колода карт, чтобы начать играть, мы должны смешать.
Визуализируем собранные данные и выявим базовые связи между переменными, например, жители с детьми, с более чем одним транспортным средством, с более чем одной квартирой.
Наконец, мы можем разделить наши данные на другие наборы для их обработки.

3 Выберите или разработайте модель

Для следующего шага и после подготовки нашей информации наступает довольно технический момент, когда мы будем использовать математические алгоритмы для ее обработки, мы можем выбрать тип алгоритмов, а также решить, будут ли наши данные помещаться туда только с контролем или без него, давайте рассмотрим подробнее:

Контролируемое обучение

В обучении с учителем мы дадим компьютерные примеры ввода данных с желаемым результатом, цель этого состоит в том, что алгоритм, который мы будем использовать, будет учиться путем сравнения, был ли изучен текущий результат или мы должны настроить его в соответствии с наши потребности, этот тип обучения использует шаблоны прогнозирования в дополнительных данных.

Пример: мы добавим изображения автомобилей разных марок, которые въезжают в наш кондоминиум, фотографию автомобиля, Ford, Dodge и т. д. Таким образом, мы надеемся, что наш компьютер сможет увидеть автомобиль и узнать, что это за марка, без необходимости человека набирать ее марку.

Обучение без учителя

При неконтролируемом обучении данные не маркируются, поэтому обучение алгоритма осуществляется на основе данных, которые были ранее доставлены с использованием шаблонов и установления самих по себе скрытых функций в наборе данных, например, марки транспортных средств, которые въезжают в кондоминиум.

Пример: модель просмотрит все поля и информацию о наборе данных, будут включены изображения автомобилей, въезжающих без указания конкретной марки, модель может обнаружить скрытый шаблон автомобиля, установив и распознав различия между ними как а также сходства, которые достигают Определите, что у двух жителей есть одинаковый автомобиль Ford, Dodge и т. д.

Каждый тип обучения имеет свои текущие преимущества и использует:

Обучение без учителя может обнаружить скрытые шаблоны, которые позволяют компьютеру сортировать и классифицировать данные без порядка, как это может происходить в данных о покупках.
Обучение с учителем используется для исторических данных и является мощным статистическим средством для прогнозирования будущих событий.

Алгоритмы

Алгоритм — это пошаговая инструкция или формула для решения проблемы, этот термин пугает и вызывает момент неловкого молчания, когда мы могли бы отклониться от слишком много более сложных вопросов, чтобы объяснить краткое объяснение каждого типа алгоритма в соответствии с его использование заключается в следующем:

Регрессия связана с моделированием взаимосвязи между переменными, которая итеративно уточняется с использованием меры ошибки в прогнозах, сделанных моделью. Эй. дается оценка того, насколько одни данные связаны с другими.
Модель обучения алгоритмов на основе экземпляров – это проблема принятия решений с экземплярами или примерами обучающих данных, которые считаются важными или необходимыми для модели. Эй. Блок марок автомобилей по сравнению с данными марок, которые будут обнаружены в нашем наборе данных.
Алгоритмы регуляризации Расширение другого метода (обычно методов регрессии), которое наказывает модели на основе их сложности, отдавая предпочтение более простым моделям, которые также лучше подходят для обобщения. Эй. данные, которые не подходят и, возможно, не имеют отношения к делу, например, какой-то магазин рассылает кучу почтового спама, не связанного ни с одним человеком в нашей квартире, по сравнению с магазином, который рассылает один и тот же почтовый спам существующим жителям той же квартиры.
Методы дерева решений создают модель решений, принимаемых на основе фактических значений атрибутов в данных. Решения разветвляются в древовидной структуре до тех пор, пока для данной записи не будет принято решение о прогнозировании. Деревья решений обучаются на данных для задач классификации и регрессии. Деревья решений часто бывают быстрыми и точными и пользуются большой популярностью в машинном обучении.
Методы Глубокого обучения — это современное обновление искусственных нейронных сетей, использующее множество дешевых вычислений. Они связаны с созданием гораздо более крупных и сложных нейронных сетей, и, как отмечалось выше, многие методы связаны с очень большими наборами данных помеченных аналоговых данных, таких как изображение, текст. аудио и видео.

4 Обучите модель

После всей этой кроличьей норы, которую мы получили, мы делаем эту более сложную часть и начинаем запускать ее в работу, что нам нужно, это просто:

Цель тренировки — как можно чаще правильно отвечать на вопрос или делать прогноз
Для этого обучения мы выбираем алгоритм
Мы обучаем модель с нашими данными при каждом прогоне, который мы называем итерацией. Каждая итерация — это этап обучения для создания более интеллектуальной модели.

Мы получаем набор данных о нашей квартире и начинаем тренироваться с алгоритмом, находим закономерности и отвечаем на некоторые вопросы:

Какой напряженный день в нашей квартире
Сколько автомобилей и какие автомобили не используются
Сколько детей учится

5 Настройка параметров

Этот шаг относится к настройке гиперпараметров, которая представляет собой «форму искусства», а не науку.
Настройте параметры модели для повышения производительности
Гиперпараметры простой модели могут включать несколько этапов обучения, скорость обучения, значения инициализации, распределение и т. д.

Итак, если в наших 5 шагах мы начинаем получать ответ, как насчет того, чтобы получить еще больше информации о настройке наших моделей, и начать получать что-то вроде:

Техническое обслуживание оборудования кондоминиума с учетом зарегистрированного рабочего времени
Домашние животные и опасности
Погода и защита инфраструктуры кондоминиума
совместное использование автомобилей

6. Делайте прогнозы

Используя дополнительные (тестовый набор) данные, которые до этого момента не использовались в модели (и для которых известны метки классов), используются для тестирования модели; лучшее приближение к тому, как модель будет работать в реальном мире
Как новый резидент может работать в нашем сообществе
Как начать повторно использовать общие сервисы

Выводы

Машинное обучение — это процесс, а не один элемент, который работает нестандартно.
Ценность процесса машинного обучения заключается в правильных данных и правильной модели, чтобы получить выгоду для всех.
Данные — это товар в процессе машинного обучения, и их можно получить во многих формах, даже незаконно нарушая частную жизнь людей.
Нам нужно быть более ответственными за то, как делиться и создавать данные, мы не знаем, как другие их используют.

Структуры для подхода к процессу машинного обучения — KDnuggets
Стоит ли сравнивать подходы к процессу машинного обучения? Есть ли принципиальные отличия между такими…www.kdnuggets.com

Обзор алгоритмов машинного обучения
Последнее обновление В этом посте мы рассмотрим наиболее популярные алгоритмы машинного обучения. Полезно…machinelearningmastery.com