ВЫВОД:
Большинство компаний принимают бизнес-решения на основе структурированных данных, которые составляют лишь часть от общего объема доступных данных. Используя простые творческие подходы, любая компания может начать получать прибыль от неструктурированных данных.

Прежде чем исследовать, как неструктурированные данные могут помочь предприятиям, давайте определим их относительно структурированных данных.

Структурированные данные относятся к данным, которые имеют высокий уровень организации, то есть структуры. Данные, попадающие в эту категорию, обычно легко анализировать с помощью набора параметров. Неструктурированные данные, напротив, труднее анализировать из-за отсутствия необходимого уровня организации.

Canvas.ly - воображаемый, но вполне реалистичный пример использования

В качестве дополнительной иллюстрации давайте представим Canvas.ly, вымышленный сайт электронной коммерции, на который вы можете загрузить свое любимое изображение, а затем выбрать размеры и типы рамок, чтобы их распечатать и отправить вам.

Canvas.ly имеет в своей базе данных все заказы, сделанные онлайн с момента его создания. Чтобы помочь развитию бизнеса, менеджер по цифровому маркетингу Canvas.ly изучает возможности более точного таргетинга интернет-рекламы и хочет получить список всех заказов, соответствующих следующим параметрам: клиенты-мужчины в возрасте 30–40 лет, разместившие заказы через смартфон Android в Нью-Йорке. Это будет считаться простым запросом к базе данных, где «заказы» относятся к структурированным данным в базе данных Canvas.ly.

Конечно, машинное обучение можно применить к структурированным данным. Можно создать модель, которая способна автоматически сегментировать покупателей на кластеры, которые не очевидны из базы данных заказов. Такая модель может выявить корреляцию между дорогостоящими заказами и пользователями, соответствующими определенным критериям. Однако большинство таких корреляций можно обнаружить с помощью какого-либо стандартного аналитического подхода, не требующего машинного обучения.

Неструктурированные данные - поиск смысла там, где его не было

В случае с Canvas.ly в его распоряжении огромное количество неструктурированных данных. Все электронные письма, полученные, например, отделом обслуживания клиентов, представляют собой фрагменты неструктурированных данных. Хотя в электронных письмах есть определенные уровни организации, такие как отправитель или номер заказа, очень сложно отсортировать все электронные письма сразу, чтобы ответить на вопросы, которые может задать компания. Как и в случае с электронной почтой, весь контент социальных сетей доступен в виде неструктурированных данных. Подход к преобразованию текстовых неструктурированных данных в структурированные с помощью API обработки естественного языка Google можно увидеть здесь.

Еще один важный пример неструктурированных данных для Canvas.ly - это коллекция изображений, которые пользователи отправляли вместе со своими заказами. Все они сохраняются в базе данных Canvas.ly и имеют связанные с ними атрибуты, такие как идентификаторы пользователей, даты, суммы заказов и т. Д. Но сами изображения - это просто пиксели, которые непросто запросить. Изображения, загруженные пользователями, очень хорошо организованы, но все еще неструктурированы.

Фактически, большая часть данных, накопленных Canvas.ly, неструктурирована. Но по иронии судьбы бизнес, тем не менее, будет принимать большинство своих решений на основе легко доступных для поиска структурированных данных, оставляя эти потенциально ценные данные на полу монтажного цеха. Canvas.ly тратит значительные суммы денег каждый год на потенциальных клиентов с помощью онлайн-рекламы. Благодаря отличной аналитической работе они понимают, когда и куда вкладывать больше, чтобы добиться лучших результатов. Но что, если бы они могли добиться большего?

Как машинное обучение может превратить неструктурированные данные в потенциальную золотую жилу

Итак, допустим, Canvas.ly решает серьезно взглянуть на изображения, представленные пользователями, чтобы увидеть, смогут ли они найти идеи для более точного нацеливания на потенциальных клиентов в Интернете. В качестве пикселей изображения вряд ли помогут. Но машинное обучение может разбираться во всех этих пикселях и возвращать ценную информацию в виде ярлыков.

Например, просто запустив Google Cloud Vision API на своих изображениях, можно получить бесценную информацию, которую можно добавить в структурированную базу данных.

Теперь огромное количество дополнительной информации может предоставить бизнесу гораздо больше измерений в структурированных данных для более обширной аналитики. Как следствие, он сможет узнать, куда и когда инвестировать больше своего рекламного бюджета.

Выходя за рамки API видения, Canvas.ly может создавать определенные модели идентификации объектов с помощью Tensorflow, чтобы идентифицировать абстракции более высокого уровня, содержащиеся в базе данных изображений. Например, он может обнаружить, что свадебные фотографии исключительно хорошо продаются в мае в США и что пользователи, которые могут заплатить более высокую цену, обычно загружают фотографии, на которых невесты одеты в платья с определенными особенностями. API общего видения пока получит Canvas.ly только для того, чтобы узнать, содержит ли новое изображение платья с такими деталями, но подход может быть расширен за счет использования пользовательских моделей, которые будут локализовать платья и искать выкройки, раскрывающие пользователя с высоким доходом.

Создание индивидуальных моделей машинного обучения занимает много времени, но эти усилия могут окупиться в виде высококонкурентного бизнес-преимущества. Однако лучше всего начинать не с технологий, а с бизнес-гипотез, которые вы хотите проверить. Ваши некогда игнорируемые неструктурированные данные могут стать отличным источником информации.

________

CI&T помогает компаниям из списка Fortune 1000 превратить неструктурированные данные в ценность. Мы являемся отмеченным наградами партнером Google Cloud Premier и первыми, кто включен в программу специализации Google в области машинного обучения. Свяжитесь с нами, чтобы узнать, как мы можем помочь вашей компании.