В частях Один и Второй этой серии я дал небольшое пояснение о том, что такое машинное обучение, и о некоторых его потенциальных преимуществах, использовании и проблемах в области бизнес-аналитики и аналитики.

В этой и последней части серии, посвященной машинному обучению, прежде чем мы перейдем к когнитивным системам, я попытаюсь дать общий обзор рынка машинного обучения (МО), описав некоторых, да, только некоторых поставщиков. и программные продукты, которые используют машинное обучение для выполнения аналитики и аналитики, поэтому вот краткий обзор рынка.

Машинное обучение: обычный гость без приглашения

Удивительно, что машинное обучение широко используется во многих современных аналитических приложениях. Его использование обусловлено:

  • L1- и L2-регуляризованная линейная регрессия
  • L1- и L2-регуляризованная логистическая регрессия

Первоначально опубликовано на dataofthings.blogspot.ca

  • Чередующаяся совместная фильтрация методом наименьших квадратов с явными оценками или неявной обратной связью
  • Наивно-байесовская полиномиальная классификация
  • Стохастический градиентный спуск
  • Их уникальный подход к предоставлению конкретных решений сложных проблем, специально адаптированный для бизнес-среды, сочетающий в себе гибкость и простоту использования, позволяет бизнес-пользователям с определенной степенью статистической и математической подготовки решать сложные задачи в бизнесе.
  • Многие из них уже, по крайней мере частично, настроили и подготовили конкретные решения для общих бизнес-проблем в сфере деятельности и отраслях с помощью шаблонов или предопределенных моделей, упрощая процесс подготовки, разработки и развертывания.
  • Все большее число традиционных и новых поставщиков программного обеспечения, вынужденные конкретными рыночными потребностями радикально развивать свои существующие решения или движимые чистым духом инноваций, идут по пути включения новых методов анализа данных в свой набор аналитических предложений, как явным образом, так и просто скрыты за белыми занавесками.

    Для поставщиков программного обеспечения, которые уже предлагают расширенные инструменты аналитики, такие как интеллектуальный анализ данных, включение функций машинного обучения в их существующий стек возможностей — это возможность усовершенствовать свои текущие решения и вывести аналитику на новый уровень. следующий уровень.

    Таким образом, вполне возможно, что если вы используете приложение для расширенной бизнес-аналитики, особенно для больших данных, вы уже используете какую-то технологию машинного обучения, знаете ли вы об этом или нет.< br />
    Кратко о ландшафте программного обеспечения для машинного обучения

    Один из интересных аспектов этой, казалось бы, новой потребности в В связи со все более большими и сложными наборами информации многие из методов машинного обучения, первоначально использовавшиеся в чисто исследовательских лабораториях, уже получили доступ в деловой мир благодаря их включению в аналитические предложения. Новые поставщики часто могут включать машинное обучение в основу своих аналитических предложений или просто в качестве еще одной функциональной функции, доступной в их стеке.

    Принимая это во внимание, мы можем найти большое количество программных продуктов. которые предлагают функциональность машинного обучения в разной степени. Рассмотрим следующие продукты, сгруппированные по типу:

    От лаборатории до бизнеса

    В этой группе мы можно найти ряд продуктов, большинство из которых основаны на модели лицензирования с открытым исходным кодом, которые могут помочь организациям протестировать машинное обучение и, возможно, сделать первые шаги.

    «Weka»

    Набор алгоритмов машинного обучения, написанных на Java, которые можно применять непосредственно к набору данных или вызывать из пользовательской программы, написанной на Java. Weka — один из самых популярных используемых инструментов машинного обучения. в исследованиях и научных кругах. Он написан под Стандартной общественной лицензией GNU, поэтому его можно свободно загружать и использовать, если вы соблюдаете условия лицензии GNU.

    Из-за его популярности доступно много информации о использование и развитие с Weka. Это по-прежнему может оказаться сложным для некоторых пользователей, не знакомых с машинным обучением, но это неплохо для тех, кто хочет изучить биты и байты использования анализа машинного обучения для больших наборов данных.

    «R»

    Вероятно, самый популярный язык и среда для статистических вычислений и графики. R — это проект GNU, который включает в себя широкий спектр статистические и графические методы с высокой степенью масштабируемости. Неудивительно, что R является одним из наиболее широко используемых статистических инструментов, используемых студентами.

    Проект R предназначен для работы благодаря наличию основного или базового системного набора статистических функций и возможностей, которые могут быть расширена за счет большого набора библиотек функций, предоставляемых в комплексной сети архивов R (CRAN).

    В библиотеке CRAN можно загрузить необходимые функции для многомерного анализа, интеллектуального анализа данных и машинного анализа. обучение. Но справедливо предположить, что для того, чтобы заставить машинное обучение работать с R, требуются некоторые усилия.

    Примечание. R также представляет особый интерес из-за его растущая популярность и принятие через коммерческое предложение для R под названием Revolution Analytics, предложение, которое я обсуждаю ниже.

    Jubatus

    Jubatus представляет собой онлайн-среду распределенного машинного обучения. Он распространяется под лицензией GNU Lesser General Public License версии 2.1, что делает Jubatus еще одним хорошим вариантом для изучения, опробования и — почему бы и нет — использования методов машинного обучения с ограниченным бюджетом.

    Фреймворк может может быть установлен в различных версиях Linux, таких как Red Hat, Ubuntu и других, а также в Mac OS X. Jubatus включает клиентские библиотеки для C++, Python, Ruby и Java. Некоторые из его функциональных возможностей включают в себя список библиотек машинного обучения для применения различных методов, таких как анализ графов, обнаружение аномалий, кластеризация, классификация, регрессия, рекомендации и т. д.

    «Apache Mahout»

    Mahout — это библиотека алгоритмов машинного обучения Apache. Mahout распространяется под коммерческой лицензией на программное обеспечение Apache и включает в себя базовый набор алгоритмов для кластеризации, классификации и совместной фильтрации, которые могут быть реализованы в распределенных системах.

    Mahout поддерживает три основных типа алгоритмов или вариантов использования для включить рекомендации, кластеризацию и задачи классификации.


    Одним из интересных аспектов Mahout является его цель создать сильное сообщество для разработки новых и свежих алгоритмов машинного обучения.
    «Apache Spark»

    Spark — это основной механизм Apache Hadoop для обработки крупномасштабных наборов данных. Движок Spark также является механизмом с открытым исходным кодом, который позволяет пользователям создавать приложения на Java, Scala или Python.

    Как и остальная часть семейства Hadoop, Spark предназначен для работы с большими объемами данных. как структурированные, так и неструктурированные. Дизайн Spark поддерживает циклический поток данных и вычисления в памяти, что делает его идеальным для обработки больших наборов данных на высокой скорости.

    В этом сценарии одним из основных компонентов движка является «MLlib», который — это библиотека машинного обучения Spark. Библиотека использует движок Spark, чтобы работать быстрее, чем MapReduce, и может работать в сочетании с «NumPy», основным пакетом научных вычислений Python, что дает MLlib большую гибкость для разработки новых приложений на этих языках.

    Некоторые из алгоритмов, включенных в MLlib:

Машинное обучение и когнитивные системы, часть 3: ландшафт поставщиков машинного обучения

  1. Несмотря на то, что этот набор приложений предоставляет пользователям бесплатное практическое машинное обучение, им все же может быть несколько сложно, когда дело доходит до запуска этих приложений в работу. Многие из них требуют специальных навыков в искусстве машинного обучения или в Java или MapReduce, чтобы полностью разработать бизнес-решение.

    Тем не менее, эти приложения могут позволить новым командам начать работу над машинным обучением, а опытным — разрабатывать комплексные решения как для малых, так и для больших данных.

    Машинное обучение существующих игроков

    Как мы упоминали ранее в этой серии, эволюция бизнес-аналитики требуют более широкого включения методов машинного обучения в существующие инструменты бизнес-аналитики и аналитики.

    Ряд популярных корпоративных программных приложений уже расширили свой функциональный охват, включив машинное обучение — полезного союзника — в свои стеки.

    br />
    Вот лишь несколько из огромного числа поставщиков программного обеспечения, которые добавили машинное обучение либо к своим основным функциям, либо в качестве дополнительной функции-продукта своего стека.

    IBM

    Не секрет, что IBM делает большие ставки в области передовой аналитики и когнитивных вычислений, особенно с «Watson», инициативой IBM в области когнитивных вычислений и предложением, которое мы рассмотрим в части когнитивных вычислений этой серии. IBM потенциально может позволить пользователям разрабатывать подходы к аналитике машинного обучения с помощью своего «стека продуктов SPSS», который включает в себя возможность разработки некоторых конкретных алгоритмов машинного обучения с помощью SPSS Modeler.

    SAS

    Несомненно, SAS является одним из ключевых игроков на арене расширенной аналитики с надежной платформой для проведения анализа и прогнозного анализа как для общих, так и для отраслевых целей. В него «включены ключевые методы машинного языка», которые можно использовать для различных целей. На обширной аналитической платформе SAS можно найти несколько методов машинного обучения, от продуктов SAS Enterprise и Tex Miner до предложения SAS High-Performance Optimization.

    Интересным фактом является способность SAS предоставлять отраслевые и бизнес-подходов для многих своих программных предложений, инкапсулирующих функциональность с предварительно упакованной вертикальной функциональностью.

    Встроенное машинное обучение
    < br /> Примечательно, что методы машинного обучения охватывают ядро ​​многих существующих электростанций, а также новичков в хранилищах данных и пространствах больших данных. Внедрив его в качестве встроенных технологий в свои технологии баз данных, некоторые поставщики аналитики и хранилищ данных теперь в той или иной степени включили методы машинного обучения в свои структуры баз данных.

    1010Data

    Нью-йоркская компания, поставщик программных решений для обработки больших данных и обнаружения, предлагает набор того, что она называет «в -аналитика баз данных», в котором набор аналитических возможностей встроен прямо в механизм управления базами данных 1010Data. Машинное обучение включено вместе с набором аналитики в базе данных, такой как кластеризация, прогнозирование, оптимизация и другие.

    Teradata

    Среди ее Предлагая множество предложений для корпоративных хранилищ данных и сред больших данных, Teradata предлагает «Teradata Warehouse Miner» — приложение, включающее набор функций профилирования и интеллектуального анализа данных, которое включает алгоритмы машинного обучения наряду с алгоритмами прогнозирования и интеллектуального анализа данных. Warehouse Miner может выполнять анализ непосредственно в базе данных, не выполняя операцию перемещения данных, что упрощает процесс подготовки данных.

    SAP

    SAP HANA, которая, возможно, является самой важной технологической инициативой SAP, теперь будет поддерживать почти все (если не все) решения SAP. инициативы в области аналитики, и ее портфель расширенной аналитики не является исключением.

    В рамках HANA компания SAP изначально запустила «SAP HANA Advanced Analytics», в которой реализован ряд функций для выполнения анализа данных и прогнозирования. В этом наборе решений можно найти набор конкретных алгоритмов для выполнения операций машинного обучения.

    Кроме того, SAP расширила свои возможности в области прогнозного анализа и машинного обучения с помощью «SAP InfiniteInsight прогнозной аналитики и Mining Suite», продукт, разработанный KXEN, который недавно приобрела SAP.

    Revolution Analytics

    Как упоминалось ранее, язык R с открытым исходным кодом становится одним из самых важных ресурсов для статистики и майнинга, доступных на рынке. Revolution Analytics, компания, основанная в 2007 году, смогла поддержать работу, проделанную огромным сообществом R, и в то же время разработать коммерческое предложение для использования преимуществ R, предоставляя R больше мощности и ресурсов производительности с помощью технологии, позволяющей использовать R для корпоративных приложений, интенсивно использующих данные.

    «Revolution R Enterprise» является основным предложением Revolution Analytics и содержит широкий спектр библиотек, предоставляемых R, обогащенных основными технологическими улучшениями, позволяющими создавать аналитические приложения корпоративного уровня. Приложение доступно для загрузки как в версии для рабочей станции, так и в версии для сервера, а также по запросу через «AWS Marketplace».

    Новое поколение расширенной аналитики

    Появление и ажиотаж вокруг больших данных также стали благоприятным местом для инноваций во многих областях спектра управления данными, особенно в области обеспечения аналитики больших объемов сложных данных.

    Появляется новая волна свежих и инновационных поставщиков программного обеспечения с решениями, которые позволяют предприятиям выполнять расширенную аналитику больших данных и использовать машинное обучение в качестве ключевого компонента или инструмента для этого анализа.

    Пара интересных аспектов этих решений:
  2. Вот пример некоторых из этих поставщиков и их решений:

    Skytree

    Слоган Skytree — «Компания по машинному обучению». Совершенно очевидно, что в компании есть машинное обучение. Skytree вышла на рынок анализа больших данных с платформой машинного обучения для анализа данных, прогнозирования и выдачи рекомендаций. По словам Skytree, это предложение машинного обучения корпоративного уровня.

    «Skytree Server» является его основным предложение. Готовая к Hadoop платформа машинного обучения с высокопроизводительными аналитическими возможностями, она также может подключаться к разнообразным потокам данных и может выполнять запросы в реальном времени, предоставляя высокопроизводительные аналитические услуги для прогнозирования оттока, обнаружения мошенничества и оценки потенциальных клиентов, среди прочего.

    Skytree также предлагает «серию подключаемых модулей», которые можно подключить к Skytree Server Foundation, чтобы улучшить существующие возможности Skytree с помощью конкретных и более совершенных моделей и методов машинного обучения.

    «BigML»

    Если вы «погуглите BigML», вы обнаружите, что «BigML — это машинное обучение для всех».

    Компания, Основанная в 2011 году в Корваллисе, штат Орегон, компания предлагает облачную крупномасштабную платформу машинного обучения, ориентированную на удобство использования в бизнесе и по очень конкурентоспособной цене за счет предоставления расширенной аналитики через предложение на основе подписки.

    Приложение позволяет пользователей для подготовки комплексных аналитических решений для широкого круга сценариев анализа, от сбора данных и проектирования модели до создания специальных аналитических ансамблей.

    Поскольку это облачная платформа, пользователи могут начать использовать службы BigML через ряд подписок на основе и/ или специальные опции. Привлекательный подход для тех организаций, которые пытаются извлечь максимальную пользу из расширенной аналитики с меньшим использованием технических и финансовых ресурсов.

    Yottamine Analytics

    Основано в В 2009 году д-р Дэвид Хуанг, Yottamine применил вклад доктора Хуанга в теорию машинного обучения на практике и отразил его в «Службе прогнозирования Yottamine (YPS)».

    YPS — это сервис по запросу. решение для расширенной аналитики, основанное на использовании веб-сервисов, которое позволяет пользователям создавать, развертывать и разрабатывать передовые решения для анализа больших данных.

    В качестве решения по запросу предлагается ряд моделей подписки на основе кластеры и узлы с оплатой в зависимости от использования сервиса в часах работы узла — довольно интересный квотный подход.

    Машинное обучение широко распространено

    Конечно, это всего лишь пример многих существующих расширенных аналитических предложений. . Появляются другие. Они используют методы машинного обучения в разной степени и для самых разных целей, конкретных или общих. Новые компании, такие как «BuildingIQ», «emcien», «BayNote», «Recommind» и другие, используют преимущества использования машинного обучения для предоставления уникальных предложений в широком спектре отраслей промышленности и бизнеса.
    < br /> Ну и что?

    Один из интересных эффектов компаний, имеющих дело с растущими объемами данных и, конечно же, с растущим количеством задач, заключается в том, что такие методы, как машинное обучение и другие методы искусственного интеллекта и когнитивных вычислений завоевывают популярность в деловом мире.

    Компании и информационные работники вынуждены изучать эти новые дисциплины и использовать их для поиска способов повышения точности анализа, способности реагировать и принимать решения, а также прогнозировать, поощряя развитие того, что некоторые называют наукой о данных.

    Многие малоизвестные инструменты расширенной аналитики, традиционно используемые в научных лабораториях или в чисто исследовательских центрах, теперь на удивление популярен во многих бизнес организаций — не только в рамках их отделов исследований и разработок, но и во всех сферах их деятельности.

    Но, с другой стороны, новое программное обеспечение все больше способно не только помочь в процессе принятия решений, но также активно воспроизводить и автоматически улучшать модели сложного анализа, рекомендации, анализ сложных сценариев, чтобы обеспечить раннее обнаружение и прогнозирование и, возможно, принятие решений на основе данных.

    Будь то измерение эффективности кампаний в социальных сетях, эффективное прогнозирование продаж, обнаружение мошенничества или анализ оттока клиентов, эти инструменты меняют способ анализа данных во многих организациях.

    Но это может быть только началом крупной революции в том, как программное обеспечение обслуживает людей и взаимодействует с ними. Растущее число дисциплин искусственного интеллекта, частью которых является машинное обучение, быстро развиваются и достигают основных областей в мире программного обеспечения для бизнеса в виде систем когнитивных вычислений следующего поколения.

    Такие предложения, как Уотсон из IBM может стать инициатором нового поколения решений, выходящих далеко за рамки того, что мы до сих пор испытывали в отношении компьютеров и процесса анализа. мне открыть для себя эти новые предложения.

В первой и второй частях этой серии я дал небольшое пояснение о том, что такое машинное обучение, и о некоторых его потенциальных преимуществах, использовании…

Растущая потребность обрабатывать более сложные и объемные данные с большей скоростью и большей точностью — я имею в виду действительно большие данные.