Многие фирмы, изучающие технологические тренды (Gartner, BBVA, Forbes и многие другие), в последнее время обсуждают новый тип тренда в аналитике: дополненную аналитику.

Идея дополненной аналитики невероятно интересна. Способность компьютера превращать аналитические идеи в данные путем автоматизации подготовки данных, обнаружения идей и, наконец, обмена ими с соответствующими людьми имеет удивительный потенциал.

Но насколько далеко зашел этот подход? Стоит ли инвестировать в это сейчас или подождать, пока появится что-то более существенное? Это все реклама или правда?

Давайте рассмотрим каждый компонент расширенной аналитики и выясним.

Если рассматривать сначала автоматизацию подготовки данных, то на рынке существует ряд различных инструментов, пытающихся автоматизировать подготовку данных, в том числе: IBM SPSS, Clear Story Data и Data Robot. Однако, за исключением IBM SPSS, ни один из них не пытается стать универсальным инструментом, и даже IBM SPSS требует обучения и значительной настройки человеком, чтобы сделать его автоматизированным.

Но сначала важно понять, что именно представляет собой подготовка данных. Подготовку данных можно разбить на три этапа:

– Сбор данных

– Маркировка данных

– Очистка данных

Сбор данных, первый шаг, печально известен трудностью по многим причинам. Как я писал в своей статье о NewSQL, данные бывают разных форм и форм, и это затрудняет их анализ и извлечение смысла. Например, синтаксический анализ электронной таблицы Excel, которая не находится в форме отчета в формате CSV, является нетривиальной задачей даже для человека, но для компьютера без сопоставления (указывающего, где находятся данные в электронной таблице) это не так просто. прямо невозможно в данный момент.

Маркировка данных может быть тем, с чем лучше всего справляется компьютер в простых случаях. Я имею в виду, что компьютер знает, когда что-то является строкой символов или числом. Впрочем, во всех случаях, кроме самых элементарных: компьютер в большинстве случаев не работает. Когда есть проблема с кодировкой (например, число выглядит как строка символов для компьютера) или если данные вводят в заблуждение (например, это выглядит как число, но на самом деле это отметка даты): это становится сложным и становится невероятно сложным чтобы компьютер обходился без вмешательства человека.

Последним шагом является очистка данных таким образом, чтобы их можно было использовать в конвейере аналитики. Есть несколько отличных методов, которые помогают на этом этапе: горячее кодирование, вменение отсутствующих значений, агрегирование значений, анализ текста, стандартизация и разработка функций с использованием таких вещей, как анализ компонентов или SelectKBest. Используя моделирование машинного обучения, компьютер может протестировать эти методологии и определить, какие из них можно использовать для обучения модели на наборе данных, и повторять методы до тех пор, пока не будет найдена наилучшая комбинация для определенной модели. Тем не менее, это может не привести к наилучшему результату модели или глобальному максимуму, но это приведет к наилучшей модели, которую компьютер может создать с учетом своей собственной петли обратной связи (также известной как локальный максимум).

На данный момент компьютер сгенерировал наилучшую версию данных, которую он может использовать для будущей аналитики. Тем не менее, это все еще может быть неоптимальным, поскольку компьютер не может гарантировать глобальный максимальный результат, и поэтому человеку может потребоваться помощь и указание машине, какие типы очистки данных необходимо выполнить.

После того, как данные были подготовлены, пришло время для обнаружения идей. Компьютеры отлично умеют находить закономерности в данных, показывать статистические закономерности и создавать функции. Этот тип обнаружения сигнала, по сути, является тем, на чем основано машинное обучение, и это очень хорошо работает в реальном мире.

Однако с точки зрения использования этого открытия и применения его в бизнес-ситуациях компьютеры не знают, как это сделать. Связывание результатов открытия с ценным пониманием по-прежнему требует помощи эксперта в предметной области или специалиста по данным.

Как только эти идеи будут обнаружены, они должны быть отправлены нужным людям. Часто системам требуется человеческая метка для анализа, а затем отправка информации всем людям, подписавшимся на этот тег. На данный момент то, что происходит с этими идеями, как только они отправляются в соответствующую группу, теряется в пустоте. Однако в будущем более интеллектуальные системы будут отслеживать, кому отправляются идеи, если они были реализованы, и эффект от этих внедрений.

Системы могут даже просматривать базу данных информации, которую они собирают с течением времени, и предлагать конкретные действия. Этот шаг расширенной аналитики все еще довольно далек от реальности, поскольку требует уровня интеллекта от систем, который еще не совсем доступен.

Расширенная аналитика — это реальность, с которой многие компании столкнутся в ближайшие годы, когда появятся новые системы для решения различных задач аналитики, таких как подготовка данных, создание и предоставление информации.

Чрезвычайно важно отделить факты от вымысла в этих системах и знать, какие обязанности и роли потребуются вашей организации, чтобы иметь возможность запускать свою аналитику. Эти системы способны полностью изменить типы ролей, которые необходимы для создания реальных аналитических возможностей в бизнесе, но они также могут привести к трате невероятного количества денег и времени организаций, которые не понимают текущих возможностей и ограничений дополненной реальности. аналитика.