Цель этой статьи — объяснить, что такое семантический анализ, что он означает в контексте машинного обучения и науки о данных и почему он важен для маркетологов. Но есть вероятность, что вы знали кое-что об этом еще до того, как прочитали это предложение. «Семантический анализ» прямо в названии, и вы знаете, что эта публикация нацелена на маркетологов, а не на лингвистов. Возможно, вы также заметили, что я работаю в компании, которая специализируется на технологиях машинного обучения, и что чуть ниже есть некоторые компьютерные заголовки.

Вы использовали контекстуальные подсказки, окружающие слова и фразы на этой странице, чтобы лучше понять подразумеваемый или практический смысл содержания этой статьи. Это семантический анализ (СА). Как люди, мы делаем это очень эффективно и почти бессознательно. Мы фильтруем весь контекст, окружающий слово/фразу/объект/сценарий, извлекаем соответствующие фрагменты, сравниваем их с нашим прошлым опытом и используем их для более глубокого понимания содержания.

Машины исторически плохо справлялись с этим, потому что им не хватало этого фильтра — способности определять, что актуально и почему. Достижения в области машинного интеллекта и обработки естественного языка (NLP) сильно повлияли на глубокий семантический анализ благодаря передовым алгоритмам, мощным компьютерам и большому количеству практики, машины становятся намного лучше в этом.

У машинного семантического анализа есть ряд реальных применений. Это помогает:

  • извлекать актуальную и полезную информацию из больших массивов неструктурированных данных
  • найти ответ на вопрос, не спрашивая человека
  • узнать значение разговорной речи в онлайн постах
  • раскрывать специфические значения слов, используемых в иностранных языках, смешанные с нашими собственными

Прежде чем мы перейдем к некоторым практическим примерам того, почему это важно для вас как для специалиста по маркетингу, давайте кратко рассмотрим историю анализа текста (известного также как интеллектуальный анализ текста) в маркетинге.

На заре AdTech люди писали программы, которые могли очищать огромные объемы данных и искать часто повторяющиеся слова и фразы. (Помните облака слов?) Подразумевалось, что частота была важным сигналом. Даже если мы на минуту забудем об этом ошибочном предположении, все равно останется несколько вопиющих пробелов. Во-первых, кто-то должен посмотреть на эти результаты и определить, почему это слово встречается чаще и что оно для них значит. Конечно, очень сложно сделать это со словами, вырванными из контекста, особенно когда слова могут иметь так много разных значений и коннотаций:

  • кнут (Крутой кнут, кнут, умный кнут, призрачная поездка на кнуте)
  • ягуар (подробнее об этом примере ниже)
  • бежать, брать, ломать, яблоко, журавль, финик, фольга (список можно продолжить)

По сути, тегирование было попыткой использовать тонкое понимание контента человеком для создания системы, которую машина могла бы распространять в больших масштабах. Мы выбираем некоторые слова (вырванные из контекста!), которые, как мы надеемся, дадут читателю какой-то смысл. Ошибки быстро накапливаются — избыточные теги, теги с ошибками, непоследовательно применяемые теги, избыточное количество тегов — и умножаются каждым пользователем системы. По мере того, как системы начали улучшаться, по крайней мере, мы видели, как люди на самом деле используют поведение при поиске для управления таксономией тегов, но мы все еще только предполагаем, как отдельный пользователь будет концептуализировать или искать часть контента.

(Мы не говорим, что вы не должны помечать свой контент тегами. Теги являются важным компонентом семантического понимания, и они служат и другим целям (см. наш пост о тегах Open Graph). авторитетную, основанную на данных таксономию для ваших тегов или, по крайней мере, определенный набор правил.)

По мере того, как социальные сети и пользовательский контент захватили Интернет, маркетологи загорелись желанием изучить этот огромный набор данных, чтобы найти смысл, но столкнулись с новой проблемой: узнать, если кто-то говорит о данной теме или бренде, является важным. менее важно, чем знать, что они чувствуют и говорят о вас. Ряд платформ социальной аналитики начали предлагать «горячий или холодный» анализ тем и брендов. Хотя это кажется тонким пониманием языка, на самом деле это просто наслоение явного понимания (например, если слово «отстой» появляется рядом с моим брендом, и я знаю, что отстой = отрицательное, тогда я могу сделать вывод, что то, что говорится о моем марка отрицательная). Это по-прежнему компьютерный эквивалент механического заучивания, и мы никогда не сможем сделать так, чтобы SkyNet стал разумным.

"Смысл семантического анализа заключается не в обучении машин, а в том, чтобы заставить их учиться".

Здесь мы должны немного помахать руками, потому что наука, стоящая за истинной СА, — это не то, что вы действительно можете объяснить в статье из 1000 слов. (Если вы хотите прочитать БОЛЬШЕ 17 000 слов о семантическом анализе и обработке естественного языка, это хорошая статья.) Семантический анализ — это не обучение машин, а их обучение. С точки зрения обработки данных семантика — это маркеры, которые обеспечивают контекст для языка. Они дают ключи не только к значению слов, но и к их отношениям с другими словами и другими лексемами. Цель, как и для любого хорошего читателя, состоит в том, чтобы заглянуть за слова на странице, чтобы увидеть смысл.

Успешный SA требует, чтобы программа просматривала массивные наборы данных, и в этом масштабе она должна делать много (правильных) предположений для себя. Речь идет о том, чтобы брать вещи, которые компьютер может легко извлечь из данных, анализируя частоту, близость (и многие, многие другие факторы) и используя их для совершения значимых когнитивных скачков. Например, компьютер может видеть шаблоны, которые сообщают ему следующее:

  • «далматинец» и «собака» семантически связаны.
  • «далматинец» и «пятнистый» более тесно связаны, чем «собака» и «пятнистый».
  • «далматинец» чаще пишется с заглавной буквы, чем другие существительные.
  • «пятнистый» может означать «видимый» или «точечный».

Для достижения цели — истинного семантического понимания — компьютер должен установить связь, что далматинец — это пятнистая порода собак.

Какое нам дело до того, знает ли компьютер, что далматинец — это пятнистая собака? Если он знает это, то, когда он видит, что кто-то ищет «пятнистую собаку», он может связать их с контентом, содержащим «щенков далматина». (Успокойтесь, Круэлла… это легче сказать, чем сделать.) Теперь умножьте это на миллионы пользователей и десятки миллионов взаимодействий, и вы поймете, в чем заключается ценность.

"Если мы сможем понять контент и поведение пользователей на глубоком семантическом уровне, мы сможем предоставлять более релевантный контент и, таким образом, создавать более резонансный пользовательский опыт".

Чтобы убедиться, что контент актуален для пользователя, вам нужны два основных компонента: понимание пользователя и понимание контента. По сути, проблема с установлением взаимосвязей между частями контента заключается в том, что большинство технологий «скрапинга» или сбора данных просто не очень хорошо понимают язык внутри документа. Могут быть задействованы очень упрощенные уровни машинного обучения, но они в значительной степени зависят от предоставленных тегов и поверхностного понимания отдельных слов на странице, что оставляет много возможностей для улучшения.

Если вы ищете термин «ягуар», вы получите результаты для:

  • Роскошный автомобиль
  • Крупный кошачий хищник
  • Футбольная команда
  • Операционная система
  • И другие, которые могут вас удивить

Цель SA состоит в том, чтобы связать вас с контентом «ягуар», который вы действительно ищете, и для достижения этой цели потребуется двусторонний подход:

  1. Найдите контекстуальные подсказки в своем прошлом или поведении в реальном времени (Включал ли ваш поиск слово «седан»? Вы недавно искали «зоопарк»?).
  2. Просмотрите весь имеющийся в его распоряжении контент, в котором встречается слово «ягуар» или родственные слова, чтобы определить, будет ли этот другой контент лучше всего соответствовать вашему поиску. («Леопард» также часто встречается с «ОС», но не с «автомобиль». «Пантера» также часто встречается с «Ягуар» и «НФЛ».)

Релевантность — это и цель, и единица измерения семантического анализа. #BigDataНАЖМИТЕ, ЧТОБЫ НАПИСАТЬ Твит

Сколько связей он может установить и насколько хорошо он может понять взаимосвязь между этими связями, определяет релевантность вашего опыта. И, наконец, релевантность является и целью, и единицей измерения семантического анализа. Если мы сможем понять контент и поведение пользователя на глубоком семантическом уровне, мы сможем предоставить более релевантный контент и тем самым создать более резонансный пользовательский опыт.

Первоначально опубликовано на сайте zetaglobal.com 10 января 2018 г.