УЗНАЙТЕ БЫСТРО О ТЕХНОЛОГИЯХ БОЛЬШИХ ДАННЫХ

A16 - Вы знаете, что такое машинное обучение? (РЕЗЮМЕ)

КРАТКИЕ СТАТЬИ ПО БОЛЬШИМ ДАННЫМ ИЗ XNEWDATA

Добро пожаловать.
Прочтите и поймите, что такое большие данные.
Статьи для чтения от 1 до 3 минут.
Используйте свое время лучше.

A16 - Вы знаете, что такое машинное обучение? (Резюме)

Машинное обучение (ML) - широко используемый термин.

Применение машинного обучения растет во многих областях человеческой деятельности, таких как здравоохранение, образование, развлечения, мошенничество и промышленность.

Машинное обучение и большие данные дополняют друг друга, при этом большие объемы данных используются для «обучения» или «обучения» интеллектуальных приложений, которые со временем обучаются.

Давайте опишем машинное обучение на концептуальном уровне, чтобы мы могли визуализировать его применение с помощью больших данных и практических рыночных приложений.

Наука о данных - это практика сбора, организации и оптимизации сложных данных, выявления взаимосвязей и аномалий переменных, а также разработки приложений, которые преобразуют данные в аналитические данные.

Специалисты по обработке данных собирают, исследуют, очищают, проверяют целостность данных, используя математические, статистические и вычислительные навыки для построения МОДЕЛЕЙ, таких как прогнозирование поведения потребителей или определение клиентских сегментов.

Они могут выполнять эти МОДЕЛИ, используя алгоритмы машинного обучения. Итак, машинное обучение стало незаменимым для больших данных.

Машинное обучение - это область компьютерных наук, которая существовала у нас в течение одного периода, но теперь становится популярной, учитывая низкую стоимость оборудования, обработки, облачных технологий, хранилищ и растущий объем данных, генерируемых большими данными.

Эти средства привели к разработке вычислительных моделей (алгоритмов), которые позволяют анализировать большие объемы данных с быстрыми и точными результатами и прогнозами, которые позволяют принимать решения без вмешательства человека.

Раздел 1. Концепции машинного обучения (РЕЗЮМЕ)

Алгоритмы и модели

Алгоритм - это логическая последовательность инструкций или шагов, которые необходимо выполнить для решения проблемы. Термин может относиться к компьютерной программе или приложению.

Алгоритмы описывают человеческую логику для решения проблемы на разных этапах. Мы можем кодифицировать алгоритмы на языках программирования, переводя эти шаги в инструкции, выполняемые компьютером.

Алгоритмы машинного обучения сложны, в них используются статистические и математические модели, применяемые к вычислительным процессам, предназначенные для выявления шаблонов, применяющих их при решении проблем.

Люди отлично умеют определять закономерности. Кто угодно может отличить тигра от зебры (как полосатой).

Компьютеры ужасно плохо распознают шаблоны, но они быстро и точно обрабатывают большие объемы данных.

Цели машинного обучения

Машинное обучение - это область исследований, в которой основное внимание уделяется компьютерным системам, которые учатся на данных, распознавая «шаблоны».

Сейчас мы учим компьютеры обрабатывать шаблоны, передавая им такие желаемые человеческие качества.

Мы используем «аналитические модели», называемые «алгоритмами машинного обучения», которые позволяют компьютеру учиться на данных, обученных на них, чтобы получить возможность манипулировать процессами и принимать решения без вмешательства человека.

Модели учатся выполнять конкретную задачу, анализируя предоставленные данные.

Например, модель может научиться распознавать представленное ей изображение кошки на тысячах качественных изображений и видео этих животных.

См. Статью Сколько компьютеров, чтобы идентифицировать кошку? 16 000 ».

Поскольку модели учатся на данных, они могут обнаруживать скрытые в них закономерности и тенденции, часто не идентифицированные людьми, что приводит к решению конкретной проблемы.

Машинное обучение фокусируется на изучении и построении моделей, которые могут учиться на данных без явного программирования.

Машинное обучение - это междисциплинарная область, которая сочетает в себе различные области, такие как математика, статистика, информатика, искусственный интеллект и знания конкретной области проблемы.

Важнейшей деятельностью Data Scientist является разработка аналитических моделей и их эффективная проверка.

Концептуализация машинного обучения

Вот определения машинного обучения.

  • Машины могут учиться на самих данных.
  • Это метод анализа данных, который автоматизирует разработку аналитических моделей с использованием алгоритмов, которые учатся на данных.
  • Это относится к практике обучения компьютеров с помощью алгоритмов для распознавания закономерностей и вывода прогнозов, имитируя человеческую способность учиться на «опыте».

В машинном обучении «опыт», который машины получают, может исходить от людей, которые вставляют и отображают лучшие данные в компьютерном алгоритме.

Google AlphaGo (игра Go, использующая машинное обучение) учится играть лучше, играя против ваших оппонентов, чем больше она играет, тем больше учится, тем больше у нее опыта.

Изучение данных и человеческого опыта (которые переводятся в данные) - это секрет алгоритмов машинного обучения.

Этапы машинного обучения

Больше данных добавлено, больше опыта пользователь тренирует систему машинного обучения, чтобы делать точные прогнозы.

У машинного обучения трехэтапный цикл.

ПОЕЗД → ПРОСМОТР → ДЕЙСТВИЕ (Цикл)

Шаг 1 - Тренировка

Первый шаг любой системы машинного обучения - обучение модели. Здесь алгоритм получает свою основную цель: извлекать шаблоны данных. Последующие части обучения могут исходить от пользователя и не требуют указаний или методик.

Шаг 2 - Предварительный просмотр

Как только у алгоритма будет достаточно данных, он сможет делать прогнозы. Эти прогнозы отвечают на вопрос «что соответствует исследуемому стандарту данных?».

Шаг 3 - Действие

Чтобы стать еще более точным, модель нуждается в обратной связи, которая является этапом действия. На этом шаге пользователь показывает, верен прогноз или неверен, что обучает модель, перезапуская цикл. На этом этапе тренер должен обладать знаниями предметной области для обучения модели.

Раздел 2 - Практические приложения ML (РЕЗЮМЕ)

Технология машинного обучения меняет жизнь людей.

При просмотре электронных писем обратите внимание на то, что приложение электронной почты отделило «спам».

В почтовом ящике выберите, какие письма являются для вас спамом, и отправьте в ящик для спама. Выбирая этот вариант, вы тренируете алгоритм машинного обучения (классификацию), чтобы распознавать шаблоны и больше не передавать связанные электронные письма.

«Виагра» - это просто нежелательное слово, и электронные письма, содержащие его, попадают в спам. Если вы однажды отклонили письмо, содержащее это слово, остальные будут классифицироваться как спам.

Netflix просит пользователей просмотреть просмотренные программы и фильмы. Цель здесь равносильна обучению алгоритма рекомендательного машинного обучения на основе того, что вы выбрали, и того, как вы отреагировали на этот выбор.

Netflix хочет знать вкусы и предпочтения пользователей, улучшая впечатления от просмотра фильмов. Он использует алгоритмы машинного обучения для поиска таких шаблонов.

Практическое применение машинного обучения

Алгоритмы машинного обучения приобрели коммерческое значение, будучи включенными в повседневную деятельность.

Вы можете посмотреть документальный фильм AlphaGo на Netflix

Примеры:

  • Приложения для автономных транспортных средств (без водителя).
  • Системы рекомендаций Netflix и Amazon.
  • Текстовые приложения, ориентированные на обработку текста, такие как Google для поиска в Интернете.
  • Выявление мошенничества в финансовом секторе, мошенничества с банками и кредитными картами.
  • Фильтрация спама, используемая провайдерами электронной почты, такими как Gmail и Hotmail.
  • Разработка игр, таких как AlphaGo от Deep Mind Company.
  • Сентиментальный анализ, построенный на анализе личных данных в Интернете.
  • Идентификация распознавания изображений, например, используемые в системах распознавания лиц в Facebook, Google Фото и Apple Фото.
  • Руководство Waze по трафику для приложения, чтобы показать лучший маршрут.
  • Прогнозируйте риски для здоровья и ставьте диагнозы для медицинских процедур, выполняемых онкологами IBM Watson System для диагностики рака.
  • Автоматическое создание описательных подписей к изображениям, идентифицирующим людей, объекты и действия.
  • Борьба с вредоносным ПО, вредоносный код, устанавливаемый на компьютеры.
  • Чат-боты, виртуальные помощники, которые действуют с помощью распознавания голоса.

Раздел 3 - Алгоритмы машинного обучения (РЕЗЮМЕ)

В машинном обучении используется множество алгоритмов для решения различных задач.

Четыре основных из них:

  1. Классификация
  2. Регресс
  3. Кластеризация
  4. Ассоциация

1 - Классификация

Цель здесь - классифицировать категорию данных.

Например, мы можем определить, имеет ли кредитная заявка высокий, средний или низкий риск.

Классифицируйте одну ленту Facebook (Like, Love, Haha, Wow, Sad, Angry).

Определите, является ли опухоль доброкачественной или злокачественной.

Определите пол: мужской или женский.

Определите, является ли день солнечным, дождливым, ветреным или пасмурным.

Классифицируйте, если кошка или собака?

2 - Регрессия

Алгоритм классификации интересуется категориями, а в регрессии - прогнозированием числовых значений.

Например, прогнозирование стоимости акции или котировки - это проблема регрессии.

Предсказать, пойдет ли цена акции вверх или вниз, - проблема классификации.

Предсказать вероятную оценку теста или прогнозировать количество осадков в регионе, прогнозировать спрос на продукт на основе времени или прогнозировать, насколько активным будет лекарство при конкретной болезни, или прогнозировать погоду на основе сезона года. примеры регрессии.

3 - Кластерный анализ

Группы или «кластеризация» - это метод организации похожих элементов в группы или наборы данных.

Например, группировка по покупателям по сегментам, таким как возраст, пол и цена покупки, представляет собой приложение для кластеризации, позволяющее находить покупательские модели поведения и развивать целевой маркетинг в интересах каждого из них.

Определите типы преступлений по географической информации и полицейским отчетам. Сгруппируйте регионы мира по категориям, например, пустыни, горы, равнины, сравнивая растительность и животных, чтобы оценить эволюционные процессы.

Сгруппируйте типы заболеваний по данным медицинской визуализации для прогнозирования будущих эпидемий

4 - Анализ ассоциации

Анализ ассоциаций очень полезен для выявления ассоциаций между продуктами, предметами или связанными событиями путем создания правил.

Эти правила определяют связанные элементы или события.

Интересный пример, который привел к появлению алгоритма call MBA (Market Basket Analysis) для анализа корзины покупок, используемого в интеллектуальном анализе данных, который использует ассоциативные правила для определения покупательских привычек, обеспечивая представление комбинированных продуктов в потребительских корзинах покупок.

Он работает путем поиска комбинаций элементов, которые часто встречаются вместе в транзакциях.

Например, люди, которые покупают пиво, любят шашлык, и так могут интересно поставить рядом с пивом уголь, мясо, специи и другие предметы. Это может привести к увеличению продаж этих продуктов.

Одна история гласит, что сеть супермаркетов использовала ассоциативный анализ, чтобы обнаружить связь между покупкой подгузников и продажей пива. Выяснилось, что большинство клиентов ходят в воскресенье вечером в магазин за подгузниками, но в конечном итоге тоже покупают пиво.

Между товарами нет никакой связи, но они поставили рядом пиво и подгузники и увидели значительный скачок продаж обоих товаров.

Связь между приобретенными товарами может потребоваться от продавца магазина и предоставления скидки при покупке более значительного количества этих товаров для увеличения продаж.

В финансовой сфере, например, можно представить обычные продукты, например, кто-то, кто инвестирует в банковское дело, может купить страхование жилья, страхование автомобиля или другие финансовые продукты.

Это перекрестные продажи.

Обучение с учителем и без учителя

Обычно аналитические методы, известные как алгоритмы машинного обучения, классифицируются как контролируемое или неконтролируемое обучение.

1 - Обучение с учителем

Этикетка данных назначения для каждого образца.

Например, в классификации, является ли опухоль доброкачественной или злокачественной, мишенью является опухоль.

Он использует контролируемое обучение, когда исторические данные предсказывают будущие события.

Например, он может предсказать вероятность мошенничества при транзакциях по кредитной карте или о том, что страховой клиент должен подать иск.

В целом классификация и регрессия - это контролируемые методы, то есть более 70% приложений ML.

2 - Обучение без учителя

Цель прогнозируемой модели неизвестна, а данные не помечены.

Например, при нацеливании на клиентов в различных группах элементы группируются на основе общих характеристик, а не ярлыков.

Группировка клиентов осуществляется без надзора.

Неконтролируемое обучение хорошо работает с транзакционными данными. Например, он может идентифицировать потребительские сегменты со связанными атрибутами, рассматриваемыми в маркетинговых кампаниях. Он может найти ключевые атрибуты, которые отделяют клиентские сегменты друг от друга.

Кластерный анализ и анализ ассоциаций демонстрируют неконтролируемые подходы.

Таким образом, мы имеем:

3 - Обучение с подкреплением

Помимо обучения с учителем и обучения без учителя, у нас еще есть так называемое «обучение с подкреплением». Это алгоритм машинного обучения, используемый для робототехники и Интернета вещей, где по набору показаний датчиков в определенный момент времени алгоритм должен выбрать следующее действие, которое нужно предпринять.

Например, роботы, взаимодействующие с окружающей средой для достижения своих целей, перемещаются из одной точки комнаты в другую или из одной комнаты в другую.

Примером может служить Mars Rover Curiosity, робот НАСА, использующий машинное обучение для исследования поверхности Марса.

Раздел 4 - Концептуализация нейронных сетей (РЕЗЮМЕ)

Нейронные сети

Одна из самых интересных аналитических моделей машинного обучения использует вычислительную технику под названием «нейронные сети». Он имитирует работу человеческого мозга. Используется в таких областях, как автономные транспортные средства, космические путешествия и компьютерные игры.

Искусственные нейронные сети (ИНС) - это вычислительные модели, в основе которых лежат биологические нейронные сети, связанные с параллельной обработкой данных человеческого мозга.

Глубокое обучение

Глубокое обучение - это область быстрого роста исследований машинного обучения, в которой достигнут прогресс в распознавании голоса, текста и изображений.

На основе методов нейронных сетей, позволяющих компьютеру изучать задачи, систематизировать информацию и находить закономерности.

Типы приложений огромны, такие как здравоохранение, личные помощники, машинный перевод, распознавание почерка, распознавание изображений, дроны, прогнозирование землетрясений, обнаружение рака, финансы и энергетика, области автономных транспортных средств.

Недавно обнаруженная Kepler-90i - горячая каменистая планета, которая обращается вокруг своей звезды каждые 14,4 дня - была обнаружена с помощью машинного обучения.

Раздел 5 - Платформы разработки машинного обучения (РЕЗЮМЕ)

Существует несколько платформ разработки машинного обучения, а также библиотеки, приложения и наборы инструментов для проектов.

Python стал языком, наиболее используемым для разработки машинного обучения, с пакетами scikit-learn, pandas и numpy.

В Java есть JSAT, а в платформе Microsoft .NET - Accord.

WEKA Machine Learning Workbench - отличная платформа для новичков, использующих графический интерфейс для разработки приложений, вызываемых из Java. В нем есть набор алгоритмов машинного обучения для задач интеллектуального анализа данных.

В R есть библиотеки для разработки машинного обучения, например Caret для алгоритмов регрессии и классификации.

Tensorflow - фреймворк, разработанный Google Brain Team, используемый для приложений, реализующих методы нейронных сетей (глубокое обучение) и машинное обучение.

Amazon ML - надежный облачный сервис, упрощающий разработчикам использование технологий машинного обучения.

Apache Mahout - разработан для поддержки алгоритмов кластеризации, классификации и совместной работы, используемых в машинном обучении.

Apache SINGA - распределенная платформа глубокого обучения для обучения больших моделей машинного обучения на больших наборах данных.

DataRobot - автоматизированная платформа машинного обучения с простым в использовании интерфейсом, позволяющая бизнес-аналитикам и другим специалистам в области данных строить прогнозные модели и применять машинное обучение в своем бизнесе.

Apache Spark MLIB - библиотека для машинного обучения для разработки в среде Spark, реализованная компанией Databricks.

Caffee - фреймворк для машинного обучения, который применяет классификацию изображений в нейронных сетях с целью участия в проектах компьютерного зрения, реализованных в автономных транспортных средствах.

Microsoft Cognitive Toolkit (CNTK) - это набор инструментов с открытым исходным кодом для глубокого обучения.

Машинное обучение Microsoft Azure - это интуитивно понятная платформа для разработки машинного обучения для использования веб-браузера без написания кодов.

Apache PredicitonIO - это сервер машинного обучения, созданный с использованием бесплатного программного обеспечения следующего поколения, предназначенный для разработчиков и специалистов по данным и предназначенный для создания механизмов прогнозирования, реализованных в машинном обучении.

Визуальные платформы для машинного обучения

Эти платформы позволяют более наглядно разрабатывать машинное обучение.

Среди них у нас есть KNIME, RapidMiner и Orange.

Раздел 6 - Проблемы, связанные с машинным обучением и искусственным интеллектом (РЕЗЮМЕ)

Проблемы машинного обучения

По мере того, как машинное обучение становится популярным, многие процессы, выполняемые людьми, могут быть заменены этой технологией за короткий период, что снизит инвестиционные затраты на HR.

Это вызвало обеспокоенность у правительств, профсоюзов, компаний и профессионалов рынка, которым могут быть заменены приложения ML.

Искусственный интеллект и машинное обучение

Термин «искусственный интеллект» или ИИ появился в 1956 году на конференции и с тех пор является частью нашего воображения в фильмах, статьях и технологических достижениях.

Целью ИИ было придать компьютерам те же характеристики человеческого интеллекта, что и так называемый «искусственный», неестественный, как человеческий интеллект.

В течение нескольких десятилетий ИИ не сдерживал своих обещаний. но в последние годы, с 2015 года, ИИ резко вырос благодаря недорогим аппаратным технологиям, таким как графические процессоры (графические процессоры) и многопроцессорные процессоры, которые позволили удешевить параллельную обработку. В то же время появилось бесконечное хранилище данных, обеспечиваемое облаком, и поток типов данных, генерируемых большими данными.

Объяснение терминов AI, ML и DP

Искусственный интеллект, машинное обучение и глубокое обучение - это термины, которые часто используются в прессе, сбивая читателей с толку.

Термины путают, но, как показано на рисунке, глубокое обучение - это подмножество машинного обучения, а машинное обучение - подмножество искусственного интеллекта.

Машинное обучение и глубокое обучение популяризируют и дают практические обещания в области ИИ, хотя нам еще предстоит пройти долгий путь.

Условия использования и пресса

Когда DeepMind AlphaGo победил южнокорейского мастера Ли Седола в настольной игре го, в средствах массовой информации использовались термины AI, ML и Deep Learning, чтобы описать, как программное обеспечение DeepMind победило.

По мере объединения терминов часто конкретное приложение ML в прессе называется AI, а Deep Learning называется ML, короче говоря, путаница между терминами.

Важность ИИ

ИИ - это последний рубеж, который все еще продолжается.

ML и DL - это реальность, которая дает надежду на будущее больших данных и науки о данных.

Технологии, воплощающие мечту о том, что компьютеры станут более интеллектуальными и полезными для деятельности, дополняющей реализацию тех, что существуют у человека.

Важность ИИ настолько высока, что ANDREW NG придумал фразу, которая хорошо отражает эту важность: ИИ - это новое электричество.

Страх перед будущим ИИ и его приложений привел к тому, что известные имена Кремниевой долины, такие как Сэм Альтман, Грег Брокман, Рид Хоффман, Джессика Ливингстон, Илон Маск и Питер Тиль, создали компанию ИИ под названием OPEN.AI.

Его основная цель состоит в исследовании, тестировании, выявлении и публикации возможностей технологии, которая может установить безопасные пределы ее использования без ущерба для человечества.

Раздел 7 - Большие данные + наука о данных + машинное обучение (РЕЗЮМЕ)

Большие данные обрабатывают большие объемы данных различных типов и форматов (структурированные, неструктурированные), чтобы генерировать «идеи», которые будут использоваться для принятия стратегических решений в компаниях.

Наука о данных - это научная практика сбора, организации и оптимизации этого большого объема данных с применением знаний в области математики, статистики и вычислений для построения аналитических моделей, способных трансформировать бизнес.

Он реализует аналитические модели с использованием алгоритмов машинного обучения и направлен на выявление закономерностей, обучение на основе данных.

Чем больше данных для тестирования моделей, тем лучше результат.

Компании, использующие большие данные, науку о данных и машинное обучение, доминируют на рынке, применяя «предиктивную аналитику», где цель равносильна предсказанию будущего, ожидая результатов для бизнеса.

Внедрение этих технологий будет становиться все более интенсивным из-за найма рабочих мест и создания новых.

Мы станем свидетелями смерти многих хорошо известных компаний и рождения других, которые смогут следовать тенденции прогнозирования будущего с помощью технологий больших данных, науки о данных и машинного обучения.

Раздел 8 - Резюме A16 - Вы знаете, что такое машинное обучение?

В Резюме A16 - Введение в машинное обучение »мы узнаем, что:

  • Наука о данных - это практика сбора, организации и оптимизации сложных данных, выявления взаимосвязей переменных, разработки приложений, которые преобразуют данные в аналитические данные.
  • Специалисты по обработке данных собирают, исследуют, проверяют целостность данных, используя математические, статистические и вычислительные навыки для построения МОДЕЛЕЙ, таких как прогнозирование поведения потребителей.
  • Они могут выполнять эти МОДЕЛИ, используя алгоритмы машинного обучения.
  • Машинное обучение - это область компьютерных наук, которая существовала у нас в течение одного периода, но теперь становится популярной, учитывая низкую стоимость оборудования, обработки, облачных технологий, хранилищ и растущий объем данных, генерируемых большими данными.
  • Машинное обучение - это область исследований, в которой основное внимание уделяется компьютерным системам, которые учатся на данных, распознавая «шаблоны». Сейчас мы учим компьютеры обрабатывать шаблоны, передавая им такие желаемые человеческие качества.
  • Мы используем «аналитические модели», называемые «алгоритмами машинного обучения», которые позволяют компьютеру учиться на данных, обученных на них, чтобы получить возможность манипулировать процессами и принимать решения без вмешательства человека.
  • Модели узнают, как выполнять конкретную задачу, анализируя предоставленные данные. Например, модель может научиться распознавать представленное ей изображение кошки на тысячах качественных изображений и видео этих животных. Модели учатся на данных, обнаруживают скрытые в них закономерности и тенденции, часто не идентифицированные людьми, что приводит к решению конкретной проблемы.
  • Машинное обучение фокусируется на изучении и построении моделей, которые могут учиться на данных без программирования. Важнейшей деятельностью Data Scientist является разработка аналитических моделей и их эффективная проверка.
  • Некоторыми примерами приложений машинного обучения являются автономные транспортные средства, системы рекомендаций Netflix и Amazon, обнаружение мошенничества, фильтрация спама в электронной почте, игры, сентиментальный анализ, распознавание изображений и чат-боты.
  • Четыре основных алгоритма машинного обучения - это классификация, регрессия, кластеризация и ассоциация.
  • Принято классифицировать аналитические методы, известные здесь как алгоритмы машинного обучения, в контролируемое и неконтролируемое обучение. Контролируемое обучение метки назначения данных для каждого образца. В неконтролируемом обучении цель прогнозируемой модели неизвестна, а данные не помечены.
  • Мы классифицируем алгоритмы классификации и регрессии как контролируемое обучение. Кластеризация и ассоциация как обучение без учителя.
  • Одна из самых интересных аналитических моделей машинного обучения использует вычислительную технику под названием «нейронные сети». Он имитирует работу человеческого мозга. Используется в таких областях, как автономные транспортные средства, космические путешествия и компьютерные игры. Глубокое обучение - это область быстрого роста исследований машинного обучения, в которой достигнут прогресс в распознавании голоса, текста и изображений. На основе методов нейронных сетей, позволяющих компьютеру изучать задачи, систематизировать информацию и находить закономерности.
  • Компании, использующие большие данные, науку о данных и машинное обучение, доминируют на рынке, применяя «предиктивную аналитику», где цель равносильна прогнозированию будущего с ожиданием бизнес-результатов.

Подробнее об этой статье

Эта статья была выбрана из книги Большие данные для руководителей и профессионалов рынка - второе издание.