Контент-интеллект в эпоху искусственного интеллекта и машинного обучения

В этой серии статей я расскажу о различных приложениях ИИ в разных отраслях, а мы обсудим искусственный интеллект (AI) и машинное обучение (ML) с точки зрения бизнеса. В некоторых случаях это потребует ознакомления с основами технической стороны, или даже в деталях, в большинстве случаев я постараюсь продолжать использовать деловой язык. Если статья техническая, она будет упомянута в шапке. Эта история актуальна для рекламодателей, создателей контента и издателей или просто для всех, кто имеет дело с контентом в Интернете или офлайн.

Контент = Издатели, Кто такие издатели?

По мере развития мира пространство для публикации расширяется. Раньше мы считали тех, кто распространяет газеты, издателями, а теперь, в эпоху Интернета, в сферу деятельности издателей входят веб-сайты, блоги, издатели музыки, видеоигр и даже микропубликаты. Как вы могли заметить, публикация больше связана с контентом, чем с носителем, через который он публикуется. Это будет ключевым моментом, который издатель должен понять, чтобы воспользоваться преимуществами машинного обучения.

Стратегия данных

Первым шагом к использованию машинного обучения и искусственного интеллекта в целом, независимо от области бизнеса, является разработка стратегии данных, или того, что вы можете назвать Иерархией потребностей Маслоу для данных. Хорошее изображение, которое может объяснить это, приведено ниже:

«Думайте об ИИ как о вершине пирамиды потребностей. Да, самоактуализация (ИИ) - это здорово, но сначала вам нужны еда, вода и кров (грамотность, сбор данных и инфраструктура) ». Моника Рогати.

Для издателей на это можно посмотреть:

Хранилище данных

Почему централизованные данные? Если у вас есть данные в одном месте, легче соединить точки в разных наборах данных, не говоря уже о том, что пользователям легче получить доступ к таким данным из одной системы. В большой организации наличие централизованного хранилища данных помогает избежать дублирования данных, поскольку каждый имеет доступ к одному источнику. При этом важно учитывать наличие необходимых ресурсов (например, инженеров по данным), технологий (конвейеры данных, рабочие процессы, облачные сервисы) и методов (документация, дизайн, контроль изменений, PM), чтобы иметь здоровое и надежное хранилище данных. Данные - это просто основа машинного обучения, поэтому чистый, организованный и легко управляемый доступ к данным имеет решающее значение перед тем, как идти дальше, это ваша еда, вода и кров. Как только вы это сделаете, вы сможете:

Бизнес-аналитика. Помогает информировать специалистов по маркетингу, продуктам или редакциям, чтобы они могли принимать решения на основе исторических данных.
Машинное обучение и искусственный интеллект. Используя одни и те же данные, вы можете прогнозировать будущее и соответствующим образом планировать или разрабатывать продукты / решения. Это может быть разработано с использованием API машинного обучения (например, Google или Amazon), которые предоставляют вам услуги Обработка естественного языка, обнаружение / распознавание речи, видеоаналитика, компьютерное зрение и несколько других инструментов, кроме того, вы можете разработать свой собственный Модели машинного обучения используют подобные TensorFlow, DataProc / Spark, IBM Watson и множество других сервисов (ваш специалист по данным знает их). Цель этой статьи - не говорить о технической стороне как таковой, не стесняйтесь исследовать их самостоятельно, если у вас есть технический опыт, или просто пропустите его, фактические варианты использования будут обсуждаться в статье позже.

Помимо ваших собственных данных, внешние данные могут быть получены с помощью API или сервисов. Хороший тому пример - Google BigQuery. Помимо того, что это сама служба хранилища данных, она дает вам доступ к нескольким общедоступным наборам данных из Google Analytics, Newsletter, Google Adwords, DoubleClick, данных о подписках и многих других. У него есть хороший сервис, также называемый BQML, который позволяет вам выполнять модели машинного обучения с использованием стандартного SQL! Таким образом, практически любой инженер со знанием SQL может теперь гораздо проще использовать модели данных и машинного обучения (это не платная реклама Google :)).

Обработка естественного языка

Пропустите этот раздел, если вы знаете, что такое НЛП, переходите к вариантам использования

Так что же такое обработка естественного языка или НЛП? Просто, как люди, мы записывали вещи тысячи лет (между 3400 и 3300 годами до нашей эры), благодаря такой долгой истории нам удалось развить исключительный навык понимания текста. Мы не только понимаем, но также чувствуем и воображаем написанный текст применительно к реальной жизни. НЛП - это просто подраздел искусственного интеллекта, который фокусируется на понимании человеческого языка, что является утомительной работой. Почему? Позвольте мне привести пример, проверьте предложение ниже:

Салах вчера был в огне, он уничтожил Челси

Как человек, вы легко можете понять, что речь идет о футболисте Мо Салахе и что он очень хорошо сыграл прошлой ночью против «Челси». Даже если вы не являетесь футбольным фанатом, вы поймете, что это какой-то игрок. В то время как компьютер мог подумать, что кто-то по имени Салах буквально вчера был в огне, и что этот человек буквально уничтожил и повалил на землю район Челси в Лондоне! Хотя это забавно, вы можете представить, насколько это может быть опасно, если эта система используется для обнаружения мошенничества в банке или даже в случае с издателем, понимающим интересы читателя.

Основные особенности НЛП заключаются в том, что оно помогает нам определять сущности в тексте (люди, места, организации, события и т. Д.) И категории текста (например, спорт, искусство и т. Д.). Вы можете зайти в Google NLP API и протестировать сам на их сайте, добавив любой текст. Текст на вики-странице Игры престолов, например, приведет к распознаванию следующих объектов:

и категории / Искусство и развлечения / Теле и видео / Телешоу и программы

Процесс / Архитектура

С точки зрения процесса и эксплуатации, избегая технической стороны, издатель может просто запускать любой контент, добавленный или загруженный в его CMS, через API для извлечения различных сущностей NLP, которые мы обсуждали выше, и классификации такого контента. Это считается дополнительными метаданными для контента (тегами NLP). Эти данные также должны храниться в хранилище данных, чтобы они были доступны для любого решения или продукта, построенного на основе таких данных, будь то отчет бизнес-аналитики или какой-либо механизм машинного обучения (например, механизм рекомендаций).

Случаи применения

Все это звучит хорошо, но имеют ли эти категории или сущности какую-либо ценность для бизнеса? Из коробки, наверное, нет. Но используя НЛП в качестве издателя, вы можете:

Семантические данные в CMS для просмотра редакторами
BI для отчетов контент-анализа
Рекомендация по содержанию
Рекомендации по содержанию к видео
Создавайте клиентские сегменты
Сопоставляйте объявления с контентом и другими сторонними объявлениями с помощью категорий

Вот несколько примеров использования, с которых вы можете начать как издатель

Сегментация

Используя категории, созданные NLP (будь то ваш собственный внутренний API или внешний, например Google API), вы можете сегментировать своих пользователей / читателей на основе их поведения при чтении. Например, вы можете знать пользователей, которые читают контент о еде и контент о спорте. Используя эти сегменты, вы можете подойти к ним с соответствующим маркетинговым сообщением. Так что, если вы знаете группу читателей, которые, например, интересуются футболом, вы можете отправить информационный бюллетень, ориентированный на такой сегмент. ML может помочь вам получить более детальную сегментацию, чем ручная сегментация.

Рекламный таргетинг

Запуская свой исторический контент через NLP и извлекая категории, вы можете создать пару ключей из фактической категории этой страницы / контента и категории, созданной NLP. Используя это, вы можете запускать рекламные кампании с таргетингом, например, на контент, связанный с чемпионатом мира по футболу. Раньше для достижения аналогичного поведения вам приходилось вручную маркировать такие страницы / контент, что отнимало много времени, было сложно поддерживать и подвержено ошибкам.

BI Аналитика

Вы можете добавить свои обычные числа Google Analytics, например, посещения пользователей, в категории, созданные вашим движком NLP. Таким образом, вы можете выяснить, какую категорию люди посещают и читают больше всего, и сколько статей уже существует в этой категории. Например, это может дать вам представление о том, на каких категориях следует сосредоточиться или которые в настоящее время интересуют ваших пользователей. Это всего лишь один пример, есть много вещей, которые вы можете сгенерировать на основе этого, например, тенденции вокруг определенного тема, или определенная знаменитость.
Google Analytics + Content + NLP + BI = Мощная аналитика контента

Еще одно распространенное использование - анализ стороннего контента. Поскольку в настоящее время издатели получают много стороннего контента, вы можете создавать фильтры на основе категорий и источников контента. Так, например, источник X предоставляет в основном спортивный контент, поэтому вы можете адаптировать предложения на основе этих результатов.

Системы рекомендаций

Такая компания, как Netflix, оценивает свою систему рекомендаций в 1 миллиард долларов. Таким образом, как издатель, использующий машинное обучение (ML) и NLP, вы можете повторно использовать существующий контент, который никто не просматривает, скрытый, что может увеличить доход от рекламы или увеличить количество подписчиков. Рекомендация может быть сделана Content-to-Content (это обычный тип рекомендующих статей, похожих на прочитанную статью или связанных с ней), Персонализированная рекомендация (которая на основе истории просмотров и / или похожих людей, что и делает Netflix), или, наконец, рекомендация Video-to-Content.

Как это технически возможно? Не вдаваясь в технические подробности (как и было обещано в статье), поскольку у нас есть теги, созданные для каждого контента / статьи в нашем хранилище данных, поэтому любые две статьи, которые имеют большое перекрытие сущностей НЛП (также называемых тегами), связаны. Вы просто устанавливаете некоторые правила, которые вы периодически выполняете. Наконец, такой перекрывающийся контент отправляется на веб-сайт для отображения читателю.

Видео разведка

В настоящее время видео - один из самых популярных типов контента, будь то платная реклама или контент, созданный для пользователей. Это то, что мы сегодня называем видеомаркетингом. Один из способов анализа видеоконтента - преобразование видео в речь, а из речи в текст. Когда у вас есть этот текст, вы можете применить обычные уловки НЛП, которые мы обсуждали в этом посте, например, пометить текст тегами. Затем это можно использовать в рекомендации по содержанию или при размещении рекламы. Такой подход сэкономит вам кучу денег, которые вы потратите на внешних поставщиков рекомендателей видео в текст, а также на ходу создаст расшифровки стенограмм для ваших видео.

Индивидуальные собственные решения

Всегда ли работает использование внешних API, таких как Google? ну, в большинстве случаев - да, но в некоторых случаях решение не существует снаружи, или у вас есть новые / конфиденциальные данные, которые являются собственностью (например, пользовательские данные). В этом случае вам необходимо создать с нуля свой персонализированный механизм рекомендаций, который представляет собой модель глубокого обучения нейронной сети с использованием TensorFlow или других методов. Модные технические слова, но ваш специалист по данным знает их, и есть множество примеров того, как строить такие модели. Поэтому, если у вас есть пользователи, читающие историю и характер прочитанного ими контента, вы можете не только изучить привычки чтения аналогичных пользователей, но и обучить свою модель на этих данных и предоставить еще более интересные рекомендации, адаптированные к вашим предложениям. В конце концов, это же поле отправит рекомендуемый контент на веб-сайт, как и в случае использования внешнего API.

Помимо рекомендаций, вы также можете создавать пользовательскую классификацию контента, отчеты Прогнозирование, прогнозы зависимости от содержания, содержания прогнозы виральности или Моделирование склонности.

Прогнозирование оттока

Удержание подписчиков - одна из самых сложных задач для издателей, сэкономленный подписчик - это в основном деньги! Может ли ML помочь в этом? Мы можем предсказать, кто откажется от подписки, обучив нашу модель тому, кто отменил, а кто не отменил в виде наборов данных. В этом случае сбор достаточного количества точек данных (функций, если вы более разбираетесь в технологиях) является обязательным. Такие данные, как длина подписки, демографические данные (возраст, доход и т. Д.), Подписка на информационные бюллетени, просмотр веб-страниц, могут помочь в создании достойной модели для прогнозирования оттока. Все эти данные должны быть в вашем хранилище данных. Как видите, мы упоминали склад во многих ситуациях, что показывает его важность как основную потребность! Вы присоединяетесь к нескольким таблицам, и у вас будут эти данные для работы вашего специалиста по данным. После того, как такая модель заработает, ваша группа по удержанию подписки может изучить количество подписчиков, которые, как ожидается, будут оттеснены, и предпринять действия или составить прогноз на будущее. Модель машинного обучения может учиться со временем, и вы также можете отслеживать это обучение и производительность, один из методов - ложноположительный или отрицательный. Ложноположительный результат - это когда вы предсказываете, например, что пользователь будет уходить, но на самом деле этот пользователь не будет уходить, а ложноотрицательный - это когда вы предсказываете, что пользователь не уйдет, а на самом деле он / она уйдет. В зависимости от случая, но в этом случае ложное срабатывание приведет к отправке дополнительных писем, что не имеет большого значения, в то время как ложноотрицательный результат следует избегать, поскольку он приведет к отсутствию пользователей, которые оттолкнутся, если мы этого не сделаем. действовать.

Обнаружение вечнозеленого контента

Вечнозеленый контент - это контент, который, естественно, будет иметь более длительный период времени, например, обзор какого-либо исторического места или биография кого-то. А статью о несчастном случае или техническую статью об iPhone 4 было бы не очень уместно рекомендовать, например. ML можно использовать для того, чтобы пометить ваш контент как вечнозеленый или нет, что может быть полезно при фильтрации вашего контента. На самом деле, это намного сложнее, чем кажется, поскольку компьютеру нужно понимать текст более глубоко, но это можно сделать с помощью новых популярных методов, таких как LSTM.

Вывод

Да, искусственный интеллект и машинное обучение могут помочь вам как издателю или кому-либо, кто занимается контентом или рекламой, лучше понимать и использовать такой контент. Тем не менее, вы должны сначала начать со стратегии данных и выяснить, какие приложения или варианты использования могут помочь вашему бизнесу и краткосрочной и долгосрочной стратегии компании. Это поможет расширить ваши существующие дойные предложения и откроет для вас новые возможности, проинформирует вас о вашей эффективности и пользователях или оптимизирует ваши операции, сэкономив ваше время.

Если у вас есть вопросы, оставьте их в комментариях. И если статья была полезной, пожалуйста, оставьте аплодисменты и поделитесь ею в своей сети.