Как наша команда искусственного интеллекта легко определяет географическое местоположение сообщений в социальных сетях

Хороший маркетинг в социальных сетях требует хороших данных. Вам необходимо знать, кто ваша аудитория, когда они наиболее активны и что ищут.

В целом, чем больше вы знаете о своей целевой аудитории, тем эффективнее будут ваши усилия в социальных сетях.

Одним из важных аспектов этого является местоположение. Зная, где ваши поклонники и потенциальные клиенты живут, играют и делают покупки, вы можете создавать более индивидуальные кампании и улучшать взаимодействие как в магазине, так и в социальных сетях.

Короче говоря, полезно знать, где люди говорят о вашем бренде. Но получить эту информацию не всегда просто.

Геолокационный вывод в социальных сетях

Социальные сети упростили поиск потенциальных покупателей. Пользователи с удовольствием рассказывают миру о своих любимых местах отдыха, роскошных продуктах и местах для позднего завтрака. Вы можете знать, куда им нравится идти, и даже когда они предпочитают туда идти.

Конечно, когда пользователи Twitter и Instagram геолокализируют свои сообщения в социальных сетях, определить местоположение очень просто.

К сожалению, большинство сообщений в социальных сетях не привязаны к геолокации. Большинство пользователей просто не помечают свое местоположение!

Мы быстро проверили нашу платформу социальной разведки, чтобы узнать процент геолокализованных постов:

В выборке сообщений Instagram, которые мы рассмотрели (зеленая линия), желтая линия представляет долю сообщений Instagram, геолокализованных их авторами (в среднем 37%)

В выборке твитов, которые мы рассмотрели (зеленая линия), желтая линия представляет долю твитов, геолокализованных их авторами (в среднем 0,3%)

Как видите, около 30% постов в Instagram геолокализованы. Для твитов это менее 1%.

Это означает, что если бы мы полагались исключительно на сообщения с географической привязкой пользователей, у нас не было бы достаточно большой выборки пользователей, чтобы определять глобальные тенденции на основе анализа географических данных.

Гео-логический вывод и искусственный интеллект спешат на помощь

Одна из наших основных миссий как компании по анализу социальных сетей - помочь брендам и предприятиям найти свою целевую аудиторию - как в цифровом, так и в физическом плане. Наша платформа Radarly ежедневно анализирует миллиарды сообщений, чтобы предоставить потребителям практическую информацию.

Нам нужен способ найти местоположения для тех пользователей, которые их не предоставляют. Не путем взлома или получения личной информации пользователя - это жутко и почти наверняка незаконно.

Вместо этого команда искусственного интеллекта Linkfluence построила модель машинного обучения. Он использует собственные технологии искусственного интеллекта и глубокого обучения для автоматического определения геолокации из сообщений пользователей.

Другими словами, мы можем увеличить количество геолокационных пользователей, основываясь на том, что мы уже знаем об использовании социальных сетей. Вот как это работает.

Как обычно работает геолокация в социальных сетях

Раньше мы полагались, что пользователь заполняет поле местоположения в Twitter. Например, вы можете видеть, что Неймар-младший устанавливает свое местоположение как Париж, Франция:

Это облегчает жизнь, так как текст ясен. К сожалению, в социальных сетях много шума, и большинство пользователей не заполняют это поле. Иногда они даже предоставляют информацию, совершенно не связанную с их местонахождением.

Если вы посмотрите биографию Рианны в Твиттере, то увидите, что она указала название своего нового альбома «Anti» в поле «Местоположение»:

Классические инструменты для прослушивания социальных сетей останутся без информации о местоположении. Или, что еще хуже, «Анти» - это действительно где-то город!

Чтобы сделать шаг вперед в нашей технологии логического вывода, мы использовали глубокое обучение для разработки обновленной модели логического вывода.

Как работает наша новая модель геоинференции

Мы разработали новую модель геоинференции с использованием глубокого обучения и искусственных нейронных сетей. Как упоминалось в предыдущем посте, глубокое обучение - это подтип алгоритмов машинного обучения. Искусственные нейронные сети - это системы глубокого обучения, вдохновленные биологическими нейронными сетями, составляющими человеческий мозг: они основаны на искусственных нейронах, связанных синапсами. Когда вы начинаете складывать много слоев нейронов, ваша сеть становится глубокой, и это то, что мы называем глубоким обучением.

Доказано, что глубокое обучение обеспечивает самые современные результаты в обработке естественного языка, позволяя фиксировать сложные закономерности, изучая их на большом количестве примеров.

Поэтому мы воспользовались большим количеством твитов, собранных Linkfluence за последние годы, и разработали собственную архитектуру глубокого обучения. Однако перед «обучением» нейронной сети важно решить, на каких «функциях» или «факторах» ей следует сосредоточиться.

Определение особенности в машинном обучении в Википедии простое: это индивидуальное измеримое свойство или характеристика наблюдаемого явления.

Например, представьте, что вы хотите предсказать результат игры чемпионата мира по футболу. Одна интересная «особенность» - это количество раз, когда каждая команда выигрывала, играя друг против друга за последние 5 лет.

Для вывода геолокации в Twitter мы выбрали следующие функции:

Текст твита
Текст биографии
Текст локации
Имя и фамилия пользователя
Язык биографии

Вот еще один пример. Любимый технический директор Linkfluence Хьюго Занги написал в Твиттере в апреле прошлого года на последней конференции разработчиков Facebook в Сан-Хосе, Калифорния:

Вы можете видеть, что поле местоположения Хьюго в Твиттере пусто.

Но мы можем использовать сам твит и другие текстовые поля, чтобы добавить дополнительную информацию для модели. Часовой пояс и смещение по всемирному координированному времени в сочетании со временем создания твита также содержат большое количество информации.

На этом графике из Хуанга и Карли вы увидите, что у пользователей действительно разные привычки публикации сообщений в Twitter в зависимости от их местоположения по всему миру, что имеет большой смысл:

Распределение количества твитов по странам в зависимости от времени публикации в формате UTC.

Мы можем обучить нейронную сеть с помощью этого шаблона, чтобы лучше находить пользователя (и, следовательно, сообщение).

Основываясь на этом графике, мы добавили в модель больше «функций»:

Время создания твита
Язык текста
Часовой пояс пользователя
Смещение UTC пользователя

Несмотря на то, что в аккаунте Хьюго установлен часовой пояс во Франции, время создания твита было около 4 часов утра во Франции. Таким образом, модель сделает вывод, что этот твит не соответствует графику распределения твитов.

Другими словами, Гюго, вероятно, не был во Франции, когда разместил это.

Наша модель будет полагаться на другие «особенности», чтобы найти подсказки о местонахождении поста. В данном случае в твите Хьюго упоминается в тексте Сан-Хосе, Калифорния.

Используя всю доступную информацию, модель понимает, что, скорее всего, Хьюго был в США во время публикации этого твита, а не во Франции, где он обычно находился.

Как мы узнаем, что эта информация верна?

Естественно задаться вопросом, насколько точными могут быть эти данные. В конце концов, он основан на «умозаключениях». Естественно, мы проводим тесты.

Простой способ проверить точность машинного обучения - изолировать часть данных перед обучением модели. Затем мы обучаем модель и оцениваем ее на фрагменте данных, который наша нейронная сеть никогда не видела.

Отсюда мы можем получить «тестовую точность» нашей модели. По сути, дает ли модель те результаты, которые мы ожидаем увидеть?

Наша новая современная технология геоинференции не только повышает точность по сравнению с предыдущим алгоритмом, но также дает нашему набору средств анализа социальных сетей больший объем геолокализованных данных.

Это означает, что мы можем помочь брендам получить более полную социальную информацию об их присутствии, аудитории и отрасли, чтобы использовать их маркетинговые стратегии и стратегии продаж.

Специфика: архитектура нейронной сети

Поскольку некоторым читателям необходимо знать гайки и болты, вот как выглядит модель:

По сути, каждое текстовое поле токенизируется (разбивается на блоки, называемые токенами, причем один токен соответствует приблизительно одному слову), и каждое слово проецируется в фиксированном измерении. (Подробнее см. Word Vector).

Мы применяем три разных свертки для каждого текстового поля и объединяем (связываем вместе) результат в один вектор. Затем мы добавляем к вектору другие «функции», такие как время публикации или язык пользователя, и передаем его в классическую полностью подключенную нейронную сеть.

Мы добавили два слоя softmax для вывода вероятностей геолокации твита в стране и городе.

После создания архитектуры глубокого обучения вам потребуются данные для обучения вашей модели. К счастью, в Linkfluence у нас есть миллиарды сообщений из Интернета на всех основных платформах социальных сетей.

Чтобы обучить эту модель, мы взяли выборку из 30 миллионов геолокализованных твитов и скармливали ее модели. После обучения с использованием наших графических процессоров (GPU) мы достигли точности 0,964 по странам. Это означает, что наша нейронная сеть предсказывает правильную страну в 96,4% случаев.

Больше данных о местоположении в социальных сетях с большей точностью

Благодаря этой новой модели искусственного интеллекта пользователи Linkfluence теперь знают, откуда берутся сообщения в социальных сетях. Не только те пользователи, которые явно указывают свое местоположение.

А поскольку люди перемещаются и публикуют сообщения из новых мест, вы видите местоположение публикации, а не только биографию пользователя в социальной сети.

Это означает более точные данные для вас и лучшую информацию для построения вашей следующей маркетинговой кампании.

Мы всегда готовы обмениваться идеями и отвечать на вопросы. Не стесняйтесь обращаться к нам в любое время.