Hi,

Я учусь на магистра по науке о данных в Стамбульском университете Шехир. На одном из своих курсов я работал над созданием ключевых слов и описательных текстов в онлайн-рекламе. Я прочитал 11 статей по этой теме и написал краткие резюме по каждой из них.

Связь импеданса в контекстно-ориентированной рекламе

Контекстная реклама — это система онлайн-рекламы, которая сопоставляет веб-страницы с контекстно-зависимой рекламой в соответствии с ключевыми фразами веб-страниц. В этом исследовании описывается система автоматической рекомендации ключевых слов для веб-страниц с использованием контролируемых алгоритмов. Из триггерного текста извлекаются термины и выбираются ключевые слова-кандидаты в соответствии с 3 различными стратегиями: монолитный, раздельный (MoS), монолитный, комбинированный (MoC) и декомпозированный, раздельный (DeS). Каждый кандидат представлен 12 функциями, такими как лингвистические особенности, использование заглавных букв, информация тега HTML о ключевом слове, предложении, длине документа и информация журнала запросов. Для некоторых страниц аннотаторы определили соответствующие ключевые слова для соответствующей страницы. Размеченные веб-страницы используются для обучения логистической регрессии (для MoC и MoS) и обобщенной логистической регрессии (для DeS). Для веб-страницы все возможные ключевые слова прогнозируются как релевантные или нерелевантные. По результатам видно, что MoS является лучшим селектором кандидатов, поскольку использование функций, основанных на фразах в целом, работает намного лучше. Кроме того, важность признаков анализируется путем удаления признаков. Видно, что функции поиска информации (TF, IDF, журнал (TF), журнал (IDF)) и функции журнала запросов вносят большой вклад в модель.

Статья: http://ra.ethz.ch/CDstore/www2006/devel-www2006.ecs.soton.ac.uk/programme/files/pdf/533.pdf

Автоматическое создание фраз для онлайн-рекламы

Рибейро-Нето и др. Изучал контекстно-таргетированную рекламу. Предполагается, что модель имеет доступ к тексту веб-страницы, ключевым словам, указанным рекламодателем, и тексту, связанному с бизнесом рекламодателя. В документе упоминаются 5 стратегий сопоставления, и видно, что стратегия AAK, которая использует текст объявления и его ключевые слова, указанные рекламодателем, для измерения сходства и учитывает, присутствуют ли ключевые слова на веб-странице. Как правило, словарный запас веб-страниц и рекламных объявлений мало пересекается. Авторы назвали эту проблему «проблемой словарного импеданса». Для решения этой проблемы строится байесовская сеть, поскольку она включает в себя k ближайших веб-страниц для инициирующей страницы и их условий. Набор высокорейтинговых терминов с похожих веб-страниц используется для расширения словарного запаса триггерной страницы. Тестируются 5 различных стратегий связи импеданса. Эксперименты показывают, что метод AAK_EXP_H достиг наибольшей производительности при измерении сходства между расширенной версией страницы и рекламным текстом, ключевыми словами и содержимым целевой страницы. Стратегия AAK_EXP_H обеспечила увеличение средней точности на 50%.

Статья: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.85.1789&rep=rep1&type=pdf

Логистическая регрессия и совместная фильтрация для рекомендаций по спонсируемым поисковым запросам

Рави и др. изучали автоматическую генерацию фраз предложения. Они объединили в своей системе различные методы, такие как модель языка n-грамм (LM) и модель перевода (TM). Параллельный корпус, который используется на основе системы, состоит из пар (фраза предложения, целевая страница) из обучающих данных для подачи модели перевода IBM Model 1, которая используется для поиска слов, которые могут заменить друг друга. Таким образом, пользователю могут быть представлены новые фразы, которых нет на целевой странице. Кроме того, они использовали языковую модель n-грамм, чтобы проверить, являются ли сгенерированные фразы реальными фразами или нет. При генерации фразы для новой целевой страницы сначала удаляются стоп-слова на целевой странице, а затем рассчитывается вес каждого слова. При выборе слов с наибольшим весом также выбираются наиболее вероятные переведенные слова этих слов, а затем генерируются возможные комбинации фраз в качестве фраз-кандидатов. По сравнению с другими системами подсказки слов (системой соответствия содержания, системой на основе извлечения и дискриминационной системой) эта система на основе перевода давала более квалифицированные фразы за счет изучения новых ключевых слов.

Документ: http://www.wsdm-conference.org/2010/proceedings/docs/p341.pdf

Масштабируемая кластеризация и предложение ключевых слов для онлайн-рекламы

Обнаружение всех возможных терминов для спонсируемой поисковой рекламы — сложная задача. Барц и др. работал над автоматизацией подбора фраз для объявлений. В Интернете разные роли, такие как искатель, рекламодатель и поисковик, преследуют свои цели. Поскольку релевантность рекламы важна для всех ролей, авторы выбрали релевантность в качестве критерия. Для экспериментов используются два разных набора данных, база данных рекламодателей и журналы кликов, а также два разных алгоритма прогнозирования, совместная фильтрация и логистическая регрессия. По наборам данных построены два графика. Отношения между терминами используются для извлечения 5 признаков, таких как количество начальных терминов, ведущих к данному термину. Результаты показывают, что база данных рекламы обеспечивает лучшую точность. Логистическая регрессия и стандартная структура совместной фильтрации обеспечивают статистически эквивалентную производительность.

Статья: https://pdfs.semanticscholar.org/eb60/bcac9bf7668cc4318995fc8b9b7ada46c090.pdf

Швайгхофер и др. др. предложил алгоритм онлайн-обучения на основе графов для кластеризации, который эффективно работает с крупномасштабными наборами данных. По рекламному объявлению обнаруживаются похожие объявления, и их ключевые слова рекомендуются с четким критерием ранжирования. Они использовали модель смешанных профилей Бернулли в кластеризации. Поскольку модель основана на графическом представлении, для прогнозирования ключевых слов требуется всего один шаг. Кроме того, использование вероятностного метода позволяет принимать мягкие решения по экземплярам, ​​а не принимать жесткие решения, которые не могут уловить неоднозначности. Например, присвоение запроса «страхование автомобиля» является неоднозначным запросом, связанным как с рекламой автомобилей, так и с рекламой финансовых услуг. Связывание запроса только с одним кластером приведет к потере информации. Более того, вероятностный характер модели затрудняет реализацию активного обучения. В качестве параметров модели они использовали переменные убеждения с дискретным распределением вероятностей вместо максимизации ожидания. Как правило, наборы рекламных данных содержат миллионы объявлений и миллионы уникальных предложений. Поскольку каждое ключевое слово представлено в каждом кластере и для каждого ключевого слова, существуют переменные доверия (бета-распределения), использование памяти будет высоким, а фаза обучения займет много времени. Чтобы преодолеть эту проблему, они использовали два метода: разреженное представление рекламы и распараллеливание данных. Интернет-объявления представлены разреженным вектором двоичных значений. Ключевые слова, которые имеют одинаковую вероятность во всех кластерах и не изменяют вероятность ответственности, удаляются. Кластеры, представляющие лишь небольшое количество объявлений, также отбрасываются, чтобы сохранить разреженность модели. Кроме того, предлагаемый ориентированный граф разработан таким образом, чтобы вычисления модели кластеризации можно было легко распараллелить. Модель эффективна с точки зрения использования памяти и времени выполнения модели кластеризации. Модель тестируется на наборе данных онлайн-рекламы, который содержит 10 000 объявлений. Строится двудольный граф рекламного ключевого слова, и производительность модели сравнивается с несколькими алгоритмами кластеризации: k-средних, агломеративной кластеризацией и версией вывода с максимальным правдоподобием (ML) для смеси профилей Бернулли на основе максимизации ожидания (EM). Время обучения предложенной модели является наиболее эффективной моделью с временем выполнения 1 час, в то время как k-средние и агломерационная кластеризация заняли почти 3 часа, а выводы ML с моделью EM заняли 40 часов для обучения. Для количественной оценки производительность моделей кластеризации проверяется путем проверки того, сгруппированы ли два объявления в одном кластере или нет. Модель байесовской смеси имеет самый высокий коэффициент истинных положительных результатов 99,5% и самый низкий коэффициент ложных положительных результатов 1,66%.

Статья: «https://www.microsoft.com/en-us/research/publication/scalable-clustering-and-keyword-suggestion-for-online-advertisements/»

Генерация ключевых слов и описательного текста в интернет-рекламе — 1