КАЖДЫЙ МОЖЕТ БЫСТРО УЗНАТЬ О ТЕХНОЛОГИЯХ БОЛЬШИХ ДАННЫХ

Введение в машинное обучение

16 — ИЗУЧАЙТЕ БОЛЬШИЕ ДАННЫЕ, НАУКУ О ДАННЫХ, АНАЛИТИКУ И МАШИННОЕ ОБУЧЕНИЕ

Статья 16. Введение в машинное обучение

Машинное обучение (ML) — широко используемый термин.

Применение машинного обучения растет во многих областях человеческой деятельности, таких как здравоохранение, образование, развлечения, мошенничество и промышленность.

Машинное обучение и большие данные дополняют друг друга, при этом большие объемы данных используются для «обучения» или «обучения» интеллектуальных приложений, которые со временем обучаются.

Давайте опишем машинное обучение на концептуальном уровне, чтобы мы могли визуализировать его применение с большими данными и практическими рыночными приложениями.

Наука о данных — это практика сбора, организации и оптимизации сложных данных, обнаружения переменных взаимосвязей и аномалий, а также разработки приложений, которые преобразуют данные в идеи.

Специалисты по данным собирают, исследуют, очищают и проверяют целостность данных, используя математические, статистические и вычислительные навыки для создания МОДЕЛЕЙ, таких как прогнозирование поведения потребителей или определение потребительских сегментов.

Они могут выполнять эти МОДЕЛИ, используя алгоритмы машинного обучения. Итак, машинное обучение стало незаменимым для больших данных.

Машинное обучение — это область компьютерных наук, которая была с нами в течение одного периода, но теперь становится популярной, учитывая низкую стоимость оборудования, обработки, облачных технологий, хранения и растущего объема данных, генерируемых большими данными.

Эти средства привели к разработке вычислительных моделей (алгоритмов), которые позволяют анализировать большие объемы данных с быстрыми, точными результатами и прогнозами, которые генерируют решения без вмешательства человека.

Раздел 1 — Концепции машинного обучения

Алгоритмы и модели

Алгоритм — это логическая последовательность инструкций или шагов, которые необходимо выполнить для решения проблемы. Термин может относиться к компьютерной программе или приложению.

Алгоритмы описывают человеческую логику для решения проблемы на разных этапах. Мы можем кодифицировать алгоритмы на языках программирования, переводя эти шаги в инструкции, выполняемые компьютером.

Алгоритмы машинного обучения сложны и используют статистические и математические модели, применяемые к вычислительным процессам, предназначенные для выявления закономерностей, применяя их при решении задач.

Люди превосходны в идентификации закономерностей. Любой может отличить тигра от зебры (обе полосатые).

Компьютеры ужасно справляются с идентификацией закономерностей, но они быстро и точно обрабатывают большие объемы данных.

Цели машинного обучения

Машинное обучение — это область исследований, в которой основное внимание уделяется компьютерным системам, которые учатся на данных, распознавая «шаблоны».

Мы сейчас учим компьютеры обрабатывать шаблоны, передавая им столь желаемое человеческое качество.

Мы используем «Аналитические модели» под названием «Алгоритмы машинного обучения», которые позволяют компьютеру учиться на данных, обученных на них, чтобы получить возможность манипулировать процессами и принимать решения без вмешательства человека.

Модели учатся выполнять конкретную задачу, анализируя предоставленные данные.

Например, модель может научиться распознавать изображение кота, представляя ей тысячи качественных изображений и видео этих животных.

См. статью Сколько компьютеров для идентификации кота? 16000”.

Поскольку модели учатся на данных, они могут обнаруживать скрытые в них закономерности и тенденции, часто не идентифицируемые людьми, что приводит к решению конкретной проблемы.

Машинное обучение фокусируется на изучении и построении моделей, которые могут учиться на данных без явного программирования.

Машинное обучение — это междисциплинарная область, объединяющая различные области, такие как математика, статистика, информатика, искусственный интеллект и конкретные предметные знания о проблеме.

Важнейшей деятельностью Data Scientist является разработка аналитических моделей и их эффективная проверка.

Концептуализация машинного обучения

Вот определения машинного обучения.

  • Машины могут учиться на самих данных.
  • Это метод анализа данных, который автоматизирует разработку аналитических моделей с использованием алгоритмов, обучающихся на основе данных.
  • Это относится к практике обучения компьютеров с помощью алгоритмов распознавать закономерности и делать прогнозы, имитируя человеческую способность учиться на «опыте».

В машинном обучении «опыт», который получают машины, может исходить от людей, которые вставляют и показывают лучшие данные компьютерному алгоритму.

Google AlphaGo (игра в го, использующая машинное обучение) учится играть лучше, играя против ваших противников, чем больше она играет, чем больше учится, тем больше становится опытной.

Обучение на данных и человеческом опыте (который преобразуется в данные) — секрет алгоритмов машинного обучения.

Этапы машинного обучения

Добавлено больше данных, больше опыта пользователь обучает систему машинного обучения, чтобы делать точные прогнозы.

ML имеет трехэтапный цикл.

ПОЕЗД → ПРЕДПРОСМОТР → ДЕЙСТВИЕ (Цикл)

Шаг 1 – обучение

Первым шагом любой системы ML является обучение модели. Здесь алгоритм получает свою основную цель: извлечение шаблонов данных. Последующие части обучения могут исходить от пользователя и не требуют руководства или техники.

Шаг 2 — предварительный просмотр

Как только алгоритм получает достаточно данных, он может делать прогнозы. Эти прогнозы отвечают на вопрос «что соответствует исследуемому стандарту данных?».

Шаг 3 — Действие

Чтобы быть еще более точным, модель нуждается в обратной связи, которая является фазой действия. На этом этапе пользователь показывает, правильный или неправильный прогноз, который обучает модель, перезапуская цикл. На этом этапе тренер должен иметь знания предметной области для обучения модели.

ИНТЕРЕСНО

  • Разработчики игры помогают ученым-египтологам создать автоматический метод перевода иероглифов. Поскольку понимание иероглифических символов сложно, они полагаются на совместную платформу машинного обучения для обмена значениями.
  • Машинное обучение имеет множество приложений, ориентированных на робототехнику, биоинформатику, анализ научных данных, распознавание лиц, голос, системы рекомендаций, визуальные вычисления, системы автоматического перевода, медицинскую диагностику, сжатие данных и многое другое.
  • Машинное обучение — это междисциплинарная область, включающая информатику, статистику, инженерию, когнитивные науки, математику и практическое применение систем, которые «учатся на данных».

Раздел 2 — Практические приложения машинного обучения

Технология машинного обучения меняет жизнь людей.

При просмотре электронных писем обратите внимание, что приложение электронной почты отделило «спам».

В папке «Входящие» выберите письма, которые для вас являются спамом, и отправьте их в папку «Спам». С этим выбором вы тренируете алгоритм машинного обучения (классификацию) распознавать шаблоны и не передавать больше связанных электронных писем.

«Виагра» — это просто нежелательное слово, и электронные письма, содержащие его, попадают в спам. Как только вы отклоните электронное письмо, содержащее это слово, другие будут классифицированы как спам.

Netflix просит пользователей пересматривать просмотренные программы и фильмы. Цель здесь равносильна обучению рекомендательного алгоритма машинного обучения на основе того, что вы выбрали и как вы отреагировали на этот выбор.

Netflix хочет знать вкус и предпочтения пользователя, улучшая впечатления от просмотра фильмов. Он использует алгоритмы ML для обнаружения таких шаблонов.

Практическое применение машинного обучения

Алгоритмы машинного обучения приобрели коммерческое значение благодаря включению в повседневную деятельность.

Вы можете посмотреть документальный фильм AlphaGo на Netflix.

Примеры:

  • Применение автономных транспортных средств (без водителя).
  • Системы рекомендаций Netflix и Amazon.
  • Текстовые приложения, ориентированные на обработку текста, такие как Google для поиска в Интернете.
  • Выявление мошенничества в финансовой сфере, банковского мошенничества и мошенничества с кредитными картами.
  • Фильтрация спама, используемая поставщиками электронной почты, такими как Gmail и Hotmail.
  • Разработка игр, таких как AlphaGo от компании Deep Mind.
  • Сентиментальный анализ построен на анализе личных данных в Интернете.
  • Идентификация распознавания изображений, например, используемая в системах распознавания лиц в Facebook, Google Photos и Apple Photos.
  • Рекомендации по трафику Waze для приложения, чтобы показать лучший маршрут.
  • Прогнозируйте риски для здоровья и диагнозы для медицинских процедур, выполняемых онкологическими службами IBM Watson System для диагностики рака.
  • Автоматическое создание описательных подписей к изображениям, идентифицирующих людей, объекты и действия.
  • Борьба с вредоносными программами, вредоносный код, который устанавливается на компьютеры.
  • Чат-боты, виртуальные помощники, которые действуют с помощью распознавания голоса.

Раздел 3 — Алгоритмы машинного обучения

В машинном обучении используется множество алгоритмов для решения различных задач.

Четыре основных:

  1. Классификация
  2. Регрессия
  3. Кластеризация
  4. Ассоциация

1 — Классификация

Целью здесь является классификация категории данных.

Например, мы можем судить о том, имеет ли заявка на получение кредита высокий, средний или низкий риск.

Классифицируйте одну ленту Facebook (Нравится, Люблю, Ха-ха, Вау, Грустно, Злой).

Определите, является ли опухоль доброкачественной или злокачественной.

Укажите, является ли пол мужским или женским.

Классифицируйте, если день солнечный, дождливый, ветреный или облачный.

Классифицируйте, если кошка или собака?

2 — Регрессия

Алгоритм классификации заинтересован в категориях, а в регрессии — в предсказании числовых значений.

Например, прогнозирование стоимости акций или котировок — это задача регрессии.

Предсказание того, пойдет ли акция вверх или вниз, является проблемой классификации.

Предсказать вероятную оценку теста, или предсказать количество осадков в регионе, предсказать спрос на продукт на основе времени, или предсказать, насколько активным будет лекарство для конкретного заболевания, или предсказать погоду на основе сезона года. примеры регрессии.

3 — Кластерный анализ

Группы или «кластеризация» — это метод организации похожих элементов в группы или наборы данных.

Например, группировка по клиентам по сегментам, таким как возраст, пол и цена покупки, представляет собой кластерное приложение для поиска поведенческих покупок и разработки целевого маркетинга в интересах каждого из них.

Определите типы преступлений по географической информации и полицейским отчетам. Сгруппируйте регионы мира по категориям, таким как пустыня, горы, равнины, сравнивая растительность и животных, чтобы оценить эволюционные процессы.

Групповые типы заболеваний по данным медицинской визуализации для прогнозирования будущих эпидемий

4 — Анализ ассоциации

Анализ ассоциаций имеет большое значение для выявления ассоциаций между продуктами, предметами или связанными событиями путем создания правил.

Эти правила идентифицируют связанные элементы или события.

Интересный пример, который привел к анализу покупательской корзины с помощью алгоритма Call MBA (Market Basket Analysis), используемого в интеллектуальном анализе данных, использует правила ассоциации для определения покупательских привычек клиентов, обеспечивая представление о комбинированных продуктах в покупательских корзинах.

Он работает путем поиска комбинаций элементов, которые часто встречаются вместе в транзакциях.

Например, люди, которые покупают пиво, любят шашлык и поэтому могут с интересом поставить рядом с пивом уголь, мясо, специи и другие предметы. Это может привести к увеличению продаж этих продуктов.

В одной истории говорится, что сеть супермаркетов использовала ассоциативный анализ, чтобы обнаружить связь между покупкой подгузников и продажей пива. Они обнаружили, что большинство покупателей идут в магазин вечером в воскресенье, чтобы купить подгузники, но в итоге покупают и пиво.

Между товарами нет никакой связи, но они поставили рядом пиво и подгузники и увидели значительный скачок продаж обоих товаров.

Отношения между купленными товарами могут занять сотрудника магазина и дать скидку на покупку более значительного количества этих товаров для увеличения продаж.

В финансовой сфере, например, можно представить обычные продукты, например, кто-то, кто инвестирует в банковское дело, может купить страхование жилья, автомобиля или другие финансовые продукты.

Это кросс-продажи типа продаж.

Контролируемое и неконтролируемое обучение

Принято классифицировать аналитические методы, известные здесь как алгоритмы машинного обучения, в контролируемом или неконтролируемом обучении.

1 — контролируемое обучение

Этикетка данных назначения для каждого образца.

Например, в классификации, является ли опухоль доброкачественной или злокачественной, опухоль является мишенью.

Он использует контролируемое обучение, где исторические данные предсказывают будущие события.

Например, он может предсказать вероятность мошеннических транзакций по кредитным картам или вероятность того, что клиент страховой компании должен подать иск.

В общей классификации и регрессии это контролируемые методы, то есть более 70% приложений ML.

2 — обучение без учителя

Цель прогнозируемой модели неизвестна, а данные не помечены.

Например, при нацеливании на клиентов в разных группах элементы в конечном итоге группируются на основе общих характеристик, а не ярлыков.

Группировка клиентов не контролируется.

Неконтролируемое обучение хорошо работает с транзакционными данными. Например, он может идентифицировать потребительские сегменты с соответствующими атрибутами, рассматриваемыми в маркетинговых кампаниях. Он может найти ключевые атрибуты, которые отделяют клиентские сегменты друг от друга.

Кластерный анализ и анализ ассоциаций показывают неконтролируемые подходы.

Таким образом, мы имеем:

3 — Обучение с подкреплением

Помимо контролируемого и неконтролируемого обучения, у нас еще есть так называемое «Обучение с подкреплением». Это алгоритм машинного обучения, используемый для робототехники и Интернета вещей, где из набора показаний датчиков в определенный момент времени алгоритм должен выбрать следующее действие.

Например, роботы, взаимодействующие с окружающей средой для достижения своих целей, перемещаются из одной точки комнаты в другую или из одной комнаты в другую.

Примером может служить Mars Rover Curiosity, робот НАСА, который использует машинное обучение для исследования поверхности Марса.

Раздел 4 — Концептуализация нейронных сетей

Нейронные сети

Одна из самых интересных аналитических моделей машинного обучения использует вычислительную технику под названием «Нейронные сети». Он имитирует работу человеческого мозга. Используется в таких областях, как автономные транспортные средства, космические путешествия и компьютерные игры.

Искусственные нейронные сети (ИНС) — это вычислительные модели, в основу которых положены биологические нейронные сети, связанные с параллельной обработкой данных человеческим мозгом.

Глубокое обучение

Глубокое обучение — это область быстрого роста исследований в области машинного обучения, в которой достигнуты успехи в распознавании голоса, текста и изображений.

На основе методов нейронных сетей, позволяющих компьютеру изучать задачи, систематизировать информацию и находить закономерности.

Типы приложений огромны, например, в области здравоохранения, личных помощников, машинных переводов, распознавания рукописного текста, распознавания изображений, дронов, предсказания землетрясений, обнаружения рака, финансов и энергетики, автономных транспортных средств.

Недавно обнаруженная Kepler-90i — горячая каменистая планета, которая вращается вокруг своей звезды каждые 14,4 дня, — была обнаружена с помощью машинного обучения.

Раздел 5 — Платформы разработки машинного обучения

Существует несколько платформ разработки машинного обучения, а также библиотеки, приложения и наборы инструментов для проектов.

Python стал языком, наиболее часто используемым для разработки ML, с пакетом scikit-learn, pandas и numpy.

У Java есть JSAT, а у платформы Microsoft .NET — Accord.

WEKA Machine Learning Workbench — отличная платформа для начинающих, использующих графический интерфейс для разработки приложений, вызываемых из Java. Он имеет набор алгоритмов ML для задач интеллектуального анализа данных.

В R есть библиотеки для разработки ML, а также Caret для алгоритмов регрессии и классификации.

Tensorflow — фреймворк, разработанный командой Google Brain Team, используемый для приложений, реализующих методы нейронных сетей (глубокое обучение) и машинного обучения.

Amazon ML — надежный облачный сервис, который позволяет разработчикам легко использовать технологии машинного обучения.

Apache Mahout — разработан для поддержки алгоритмов кластеризации, классификации и совместной работы, используемых в машинном обучении.

Apache SINGA — распределенная платформа глубокого обучения для обучения больших моделей машинного обучения на больших наборах данных.

DataRobot — автоматизированная платформа машинного обучения с простым в использовании интерфейсом, позволяющая бизнес-аналитикам и другим специалистам по данным создавать прогностические модели и применять машинное обучение в своем бизнесе.

Apache Spark MLIB — библиотека машинного обучения для разработки в среде Spark, реализованная компанией Databricks.

Caffee — платформа для машинного обучения, которая применяет классификацию изображений в нейронных сетях с целью участия в проектах компьютерного зрения, реализованных в автономных транспортных средствах.

Microsoft Cognitive Toolkit (CNTK) — это набор инструментов с открытым исходным кодом для глубокого обучения.

Машинное обучение Microsoft Azure — это интуитивно понятная платформа для разработки машинного обучения с использованием веб-браузера без написания кода.

Apache PredicitonIO — это сервер машинного обучения, созданный с использованием бесплатного программного обеспечения следующего поколения, предназначенного для разработчиков и специалистов по данным для создания механизмов прогнозирования, реализованных в ML.

Визуальные платформы для машинного обучения

Эти платформы позволяют разрабатывать машинное обучение более наглядно.

Среди них у нас есть KNIME, RapidMiner и Orange.

Раздел 6. Проблемы, связанные с ОД и ИИ

Проблемы машинного обучения

По мере того, как ML становится популярным, многие процессы, выполняемые людьми, могут быть заменены этой технологией в течение короткого периода времени, что снижает инвестиционные затраты на персонал.

Это вызвало обеспокоенность у правительств, профсоюзов, компаний и профессионалов рынка, которые могут быть заменены приложениями ML.

Искусственный интеллект и машинное обучение

Термин «искусственный интеллект» или ИИ появился в 1956 году на конференции и с тех пор стал частью нашего воображения благодаря фильмам, статьям и технологическим достижениям.

Цель ИИ состояла в том, чтобы сделать компьютеры такими же характеристиками человеческого интеллекта, и так называемыми «искусственными», неестественными, как человеческий интеллект.

Уже несколько десятилетий ИИ не сдерживает обещаний. но в последние годы, с 2015 года, искусственный интеллект резко вырос благодаря недорогим аппаратным технологиям, таким как графические процессоры (графические процессоры) и многопроцессорные процессоры, которые позволили удешевить параллельную обработку. В то же время появилось бесконечное хранилище данных, предоставляемое облаком, и поток типов данных, генерируемых большими данными.

Объяснение терминов AI, ML и DP

Термины «искусственный интеллект», «машинное обучение» и «глубокое обучение» часто используются в прессе, что приводит читателей в замешательство.

Термины путаются, но, как показано на рисунке, глубокое обучение — это подмножество машинного обучения, а машинное обучение — подмножество ИИ.

Машинное обучение и глубокое обучение популяризируют ИИ и дают практические обещания, хотя нам еще предстоит пройти долгий путь.

Условия и пресса

Когда программа AlphaGo от DeepMind победила южнокорейского мастера Ли Седола в настольной игре Го, в средствах массовой информации использовались термины AI, ML и Deep Learning, чтобы описать, как программное обеспечение DeepMind победило.

По мере того, как термины объединяются, часто пресса называет конкретное приложение ML ИИ, а глубокое обучение называют ML, короче говоря, путаница между терминами.

Важность ИИ

ИИ — это последний рубеж, который все еще продолжается.

Машинное обучение и глубокое обучение — это реальность, которая дает надежду на будущее больших данных и науки о данных.

Технологии, которые воплощают мечту, сбываются, когда компьютеры становятся более интеллектуальными и полезными для деятельности, дополняющей реализацию деятельности человека.

Важность ИИ настолько высока, что ANDREW NG придумал фразу, которая хорошо отражает эту важность: ИИ — это новое электричество.

Страх перед будущим ИИ и его приложений привел к тому, что известные имена Кремниевой долины, такие как Сэм Альтман, Грег Брокман, Рид Хоффман, Джессика Ливингстон, Илон Маск и Питер Тиль, создали компанию ИИ под названием OPEN.AI.

Его основная цель состоит в том, чтобы исследовать, тестировать, выявлять и публиковать возможности технологий, которые могут установить безопасные пределы их использования без ущерба для человечества.

Раздел 7 — Большие данные + наука о данных + машинное обучение

Большие данные обрабатывают большие объемы данных разных типов и форматов (структурированных, неструктурированных) для получения «понимания», которое будет служить для принятия стратегических решений в компаниях.

Наука о данных — это научная практика по сбору, организации и оптимизации этого большого объема данных с применением знаний в области математики, статистики и вычислений для построения аналитических моделей, способных трансформировать бизнес.

Он реализует аналитические модели с использованием алгоритмов машинного обучения и направлен на выявление закономерностей и изучение данных.

Чем больше данных для тестирования моделей, тем лучше результат.

Компании, использующие Big Data, Data Science и ML, доминируют на рынке, используя «предиктивную аналитику», где цель равносильна прогнозированию будущего, ожиданию бизнес-результатов.

Внедрение этих технологий станет более интенсивным днем, сокращая рабочие места и создавая новые.

Мы станем свидетелями гибели многих известных компаний и рождения других, способных следовать тренду прогнозирования будущего с помощью технологий Big Data, Data Science и ML.

ИНТЕРЕСНО

  • Большие данные, наука о данных и машинное обучение идеально подходят для приложений прогнозного анализа данных.
  • Некоторые области применения этих технологий: Прогнозирование спроса (продаж). Системы рекомендаций (электронная коммерция). Динамическое ценообразование (цены). Цепочка поставок (логистика). Розничные продажи). Чат-бот (обслуживание клиентов). Колл-центр (обработка естественного языка). Обнаружение мошенничества (банковское дело). Поисковые системы (Google), Распознавание рукописного ввода (Почта). Поведение пользователей (ИТ-безопасность). Прогностическое обслуживание (IoT). Диагностика здоровья (IBM Watson). Автономные транспортные средства.
  • К данным нужно относиться так же серьезно, как к разработке программного обеспечения (придуман Крисом Таггартом, соучредителем и генеральным директором OpenCorporates, крупнейшей в мире открытой корпоративной базы данных).


Подробнее об этой статье

Эта статья выбрана из книги Большие данные для руководителей и профессионалов рынка — второе издание.

Прочитайте следующую статью 17 — Введение в визуализацию данных для больших данных



Перейдите в раздел Большие данные для руководителей и профессионалов рынка и выберите ссылки на другие статьи.