Я изучаю гражданские технологии и процесс принятия решений в умных городах, чтобы ознакомить городских профессионалов во всех областях с современным уровнем гражданских инициатив для будущего планирования. В этой статье я продолжаю развивать свой искусственный интеллект для умного города, добавляя прогностическую модель для лексического содержания.

Для этого я собрал 110 862 твита (более 19 миллионов слов) по 109 самым передовым умным городам мира, оцененным по рейтингу IMD Smart City Index 2020. Три тематических исследования моей докторской диссертации: Тайбэй (Тайвань), Тель-Авив (Израиль) и Таллинн (Эстония). Это три из 109 образцов, по которым я собрал значительно больше твитов, чем в других городах, соответственно до 2013 и 2012 годов, что представляет собой почти все твиты, опубликованные в этих городах с момента создания социальной сети.

Я использую это лексическое содержание для извлечения числовых атрибутов с помощью методов обработки естественного языка (NLP) и анализа настроений, а также других вычислений слов, таких как вес определенных пакетов слов (BoW) для областей урбанистики. Моя модель построена на языке программирования Python, код которого и файл исходных необработанных данных доступны на моем Github.

= ›Чтобы упомянуть эту статью:« TWITTER MINING: модель прогнозирования общественного мнения, обученная взаимодействию граждан в 100 умных городах ». Жюльен Карбоннелл, 2021, medium.com.

Введение

Введение - проблема, гипотеза, методология

  1. Описательная статистика
    - Исследовательский анализ данных
    - Коэффициенты корреляции
    - Регрессионный анализ
  2. Модели машинного обучения
    - Подбор данных
    - Прогнозирование взаимодействия с гражданами
    - Статистические данные
  3. Я объединил все твиты в один текст для каждого города. Все они разной длины были обработаны с помощью одних и тех же этапов очистки и преобразования:
    - Все символы убрать
    - преобразовать смайлы в слова
    (например, 😊 into smile_face_with_smiling_eyes)
    - Преобразование смайлов в слова
    (например :-) в happy_face_smiley)
    - Удаление знаков препинания
    - Удаление символов
    - Удаление стоп-слов
    (стоп-слова относятся к наиболее распространенным словам в языке, которые не добавляют никакого смысла. например, связывающие слова, такие как: a, the или…)
    - Удалить URL-адреса
    - Удалить htmls
    - Удалить #
    (я не удаляю полный хэштег, который может содержать интересную информацию)
    - Удалить @ упоминания
    - Удалить цифры
    - Развернуть сокращения
    (например, «не» на «не»)
    - Количество чистых слов
    - Среднее количество символов в чистых словах
    - Средняя длина чистые слова
    - Полярность настроений чистых текстов
    (для сравнения ред. с полярностью настроений в сырых твитах)
    - Субъективность настроений в чистых текстах
    (то же самое)
    - «Токенизация чистых текстов».
    Токенизация в лексическом анализе - это процесс разграничения строки входных символов, чтобы передать ее в какой-либо другой процесс (например, коричневая лиса прыгает = ›Коричневая, лиса, прыгает)
    - Удалите бессмысленные токены.
    Токены, такие как, com, amp, als или другие «шумы», удаляются вручную.
    - Удалить однобуквенные токены.
    Однобуквенные токены, не идентифицированные как обычные стоп-слова, также удаляются.
    - «Часть речевых тегов».
    Грамматические теги в лингвистике корпуса - это процесс маркировки объединить слово в тексте как соответствующее определенной части речи, такой как существительные, глаголы, прилагательные, наречия и т. д., на основе как его определения, так и его контекста. (например, коричневая лиса прыгает = ›коричневый: ADJ, лиса: NN, прыгает: VB)
    - 100 наиболее часто используемых слов.
    Эта операция подсчитывает и упорядочивает 100 наиболее часто используемых слов в каждом город. Он будет использоваться для поиска закономерностей и, возможно, совпадений или расхождений между городами, достигающими наилучших показателей вовлеченности. Они общаются одними и теми же словами на одни и те же темы или нет?
    - «Встраивание слов».
    CountVectoriser используется для преобразования коллекции текстовых документов в массивы векторов счетчиков токенов. Это позволяет выполнять предварительную обработку текстовых данных в матрицу чисел, что ускоряет последующую обработку текста.
    - «векторизатор TF-IDF».
    Частота термина - обратная частота документа - это числовая статистика, которая предназначена для отражения того, насколько важно слово для документа в корпусе.
    - Вес Smart-City BoW.
    Пакет слов - это репрезентативный лексикон определенной темы. Когда я оцениваю вес каждой темы, я считаю каждое слово из моих чистых текстов, которое относится к теме, которая мне интересна. Таким образом, у меня есть обзор того, насколько эта тема обсуждается в каждом городе.
    - Вес BoW CivicTech.
    - Вес BoW инфраструктуры.
    - Вес BoW устойчивости.
    - Вес BoW управления.
    - Вес BoW Предпринимательство BoW.

Заключение - запомнить для следующих шагов

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

Проблема:

В моей последней статье я представил модель ранжирования для вовлечения граждан в Smart-City, основанную на исследовании, собранном на основе трех моих тематических исследований: Тайбэй (Тайвань), Тель-Авив (Израиль) и Таллинн (Эстония). Исследование выявило некоторые интересные корреляции между переменными, в частности, степень вовлеченности каждого респондента и их способность делиться своим мнением публично.
= ›Подробнее: Жюльен Карбоннелл НАУКА О ДАННЫХ: Модель ранжирования для вовлечения граждан в умный город ». 2021 г., medium.com »

Я продолжаю экспериментировать со следующим исследованием, в котором я связываю способность делиться своим мнением публично с полярностью настроений и субъективностью твитов. Действительно, алгоритмы интеллектуального анализа автоматизируют анализ текста, чтобы систематически извлекать и количественно определять аффективные состояния и степень субъективности авторов. Таким образом, так же, как я использовал комбинацию коррелированных переменных для создания нового класса «высоко вовлеченных граждан» в своем исследовании, я буду использовать оценки настроений из исследования твиттер-майнинга, чтобы создать новый класс «высоко вовлеченных граждан». твиты », которые будут агрегированы на уровне города для ранжирования умных городов по степени вовлеченности граждан.

Выявление твитов с высокой степенью вовлеченности из всего сообщения, опубликованного в социальной сети, - это потребность в извлечении определенных атрибутов или шаблонов, которые будут определять различия между твитами, которые пользуются большой популярностью, и твитами, которые нет. После определения эти переменные будут использоваться моделями машинного обучения, чтобы предсказать, какой твит можно отнести к категории высоко вовлеченных, а какой - нет. Другими словами, я отвечаю на этот вопрос в масштабе города: «Могу ли я использовать некоторые особенности, извлеченные из твитов, для построения модели прогнозирования общественного мнения в умных городах?»

Гипотеза:

В предыдущем исследовании, проведенном среди 158 моих французских контактов LinkedIn, я обнаружил, что 87% моих респондентов были бы заинтересованы в более активном участии в процессе принятия решений для будущего своих городов. = ›Чтобы узнать больше об этом исследовании: Жюльен Карбоннель «ГРАЖДАНСКОЕ УЧАСТИЕ: французский взгляд на процесс принятия решений в области городского планирования », 2019, medium.com.
Подобные результаты были получены на территориях моих исследований:
- 85% в Тайбэе (Тайвань) = › Жюльен Карбоннелл «ТАЙБЕЙСКИЕ ИССЛЕДОВАНИЯ: Высокотехнологичная промышленность и умный транспорт, умелая стартовая площадка для стартапов и азиатский лидер по социальным вопросам .» 2020, medium.com.
- 78% в Тель-Авиве (Израиль) = › Жюльен Карбоннелл «Тель-Авивское расследование: инновации как образ жизни, централизованная модель управления данными и простота контакта с лицами, принимающими решения », 2020, medium.com
- 72% в Таллинне (Эстония) = › Жюльен Карбоннелл ИССЛЕДОВАНИЕ ТАЛЛИННА: От Skype до эстонской мафии, мирового лидера предпринимателей, не использующих геолокацию, при поддержке государство, ЕС и плотная сеть ангелов и венчурных капиталистов ».» 2020, medium.com

Однако большинство из них также заявляют о нехватке времени или адаптированного канала для взаимодействия, который соответствовал бы их потребностям и обязательствам по графику. Действительно, если вы провели некоторое время на собраниях граждан и встречах в районе, вы наверняка заметили, что они часто не отличаются разнообразием: самые активные люди не могут присоединиться к ним, они либо на работе, либо в спортзале, либо заботятся о детях. или закусочная. Не вступают и самые молодые горожане, большинство из них не интересуются политикой. В результате, фактические модели взаимодействия с гражданами часто имеют предвзятость из-за несбалансированности репрезентативности между типами и категориями граждан. Обычно он привлекает больше активистов, политиков, пенсионеров, фрилансеров, ищущих возможности, и безработных. Одно простое объяснение этой ситуации состоит в том, что личные встречи в определенное время в определенном месте не могут совпадать с другими личными обязательствами для большей части населения. Ввиду этого многие гражданские технологи разрабатывают цифровые инструменты для преодоления разрыва и, как правило, предлагают больше возможностей взаимодействия с гражданами. Я провел обширный анализ таких разработчиков, доступ к которому вы можете получить здесь: Жюльен Карбоннелл« CIVIC-TECH: 100 инструментов и платформ для изучения примеров для гражданского участия » 2019, medium.com.

Вместо того, чтобы просить людей взаимодействовать через то или иное приложение или ожидать, что они воспользуются официальным веб-сайтом местного правительства, чтобы поделиться своим мнением, которое часто с трудом удается достичь удовлетворительного уровня участия граждан, другой вариант - напрямую уловить общественное мнение там, где это: в социальных сетях. Если у людей нет времени лично участвовать в принятии решений в своих городах или они не доверяют своим демократическим представителям достаточно, чтобы присоединиться к обычным политическим партиям и собраниям, они обязательно используют социальные сети, чтобы выразить свое мнение и общаться с ними. сверстники. Так почему бы нам не использовать эти существующие платформы, чтобы привлечь внимание к тому, что на самом деле говорят люди? Разве это не способ усилить спонтанное восходящее лидерство?

Методология:

Я хотел бы ответить на следующие три гипотезы:
1. Оценки настроений важны для классификации городов по степени вовлеченности их жителей. Чем больше горожане выражают свое мнение в твиттере, тем больше у города будет высокая оценка вовлеченности.
2. Весомые оценки BoW по конкретным темам - важный метод классификации городов по степени вовлеченности граждан. Чем больше горожане используют определенную лексику в своих твитах, тем больше они вовлечены и, следовательно, тем выше уровень вовлеченности горожан.
3. Ежегодный рейтинг умных городов Smart City Index, публикуемый Бизнес-школа IMD важна для классификации городов по степени вовлеченности граждан. Чем выше позиция города в рейтинге, тем больше у него очков вовлеченности.

В конце своего исследования я составлю рейтинг 109 умных городов с показателем вовлеченности горожан и смогу проверить свою последнюю гипотезу:
4. Я могу использовать некоторые особенности, извлеченные из твитов, для построения модель прогнозирования общественного мнения в умных городах.

1. Извлечение функций - НЛП, анализ настроений

Во-первых, я собрал твиты, в которых хэштегом упоминается название одного из 109 умных городов, классифицированных IMD Smart-City Index 2020. Это набор данных из 110 862 твитов из четырех уголков мира, с преобладанием городов из Европа, Азия и США. Как вы можете видеть на следующей карте, также представлены Южная Америка, Африка, Ближний Восток и Австралия.

Затем я обработал весь набор данных, представляющий 19 184 388 слов, с помощью методов обработки естественного языка и анализа тональности, чтобы извлечь как можно больше числовых характеристик из этого лексического содержания. Я агрегировал характеристики уровня твитов в масштабе города, разделив общие баллы на количество твитов для каждого города, чтобы избежать дисбаланса между выборками. Это привело к серии средних значений, выраженных числом с плавающей запятой в стандартизированной шкале.

На третьем этапе я создал новую переменную «показатель вовлеченности», приписываемый каждому городу, исходя из количества твитов с высокой заинтересованностью в каждом. Этот показатель вовлеченности позволяет мне определить, какие города являются 20% наиболее вовлеченными, исходя из активности пользователей твиттера, действующих от их имени. Таким образом, я смог использовать модели ранжирования машинного обучения для прогнозирования популярных твитов города на основе других атрибутов твитов.

Наконец, я буду использовать статистические выводы, чтобы проверить вероятность моей модели предсказывать общественное мнение в глобальном масштабе.

1.1 Функции на уровне твита:

Обработка естественного языка (NLP) - это подраздел лингвистики, информатики и искусственного интеллекта, связанный с взаимодействием между компьютером и человеческим языком. Это приводит к тому, что ИТ-программы способны понимать содержание больших объемов текстовых документов, выраженных на естественном языке. Эти программы могут извлекать информацию из текстов, а также классифицировать и организовывать сами документы.

Анализ настроений - одна из самых популярных идей, извлекаемых из текстового контента, особенно используемая в контексте анализа отзывов покупателей о новом продукте для определенного бренда или компании. Также называется интеллектуальным анализом мнений, он использует методы НЛП для выявления аффективных состояний и субъективной информации из текстов самого разного масштаба и различной тематики.

1.2 Особенности на уровне города:

Вот список характеристик, извлеченных для каждых 110 862 твитов:
- Длина твита
- Количество слов
- Количество стоп-слов
- Количество предложений
- Средняя длина слов
- Количество знаков препинания
- Количество хэштегов
- Количество цифр
- Количество прописных букв
- Процент положительности, нейтральности и Негативность
(от 0 до 1)
- Полярность настроения
(-1: очень негативно, 1: очень позитивно)
- Субъективность настроения
(0: очень объективно, 1: очень субъективно)

1.3 Лексическое преобразование:

Вышеуказанные характеристики были агрегированы по городам, а затем разделены на количество твитов, чтобы получить средние значения, выраженные в виде чисел с плавающей запятой. Я также добавил некоторые другие функции непосредственно из шкалы города:
- Рейтинг в Smart City Index 2020
- Количество твитов
- Средняя длина твита
- Среднее количество слов
- Среднее количество стоп-слов
- Среднее количество предложений
- Средняя длина слова
- Среднее количество знаков препинания
- Среднее количество хэштегов
- Среднее количество цифр
- Среднее количество прописных букв
- Средний процент положительности, нейтральности и отрицательности
- Средняя полярность настроений
- Средняя субъективность настроений

2. Описательная статистика

После того, как я извлек вышеупомянутые особенности из своего набора данных твитов и создал новый набор данных умных городов с соответствующими числовыми переменными, я в целом посмотрел на состав данных, чтобы выявить некоторые идеи, которые можно было бы увидеть с самого начала. глаза.

2.1 Исследовательский анализ данных:

Средняя длина твита составляет около 180 символов, что, конечно, зависит от стандартного формата социальной сети, но мы видим, что распределение не распространяется нормально, что свидетельствует о различном поведении пользователей при общении. платформы. Таким образом, это субъективный выбор, который также наблюдается в пиках распределения среднего количества слов на твит, что означает, что эта переменная также не имеет нормального распределения. То же, что и среднее количество предложений и средняя длина слова.

2.2 Коэффициенты корреляции

Среднее количество стоп-слов, среднее количество знаков препинания и среднее количество прописных букв также показывает некоторые пики, которые кажутся больше регулярный, я полагаю, он должен отражать грамматические модели языка, а не субъективное поведение пользователя. А также средняя длина чистых слов, распределение которой имеет очень правильную форму и, вероятно, зависит от природы самих слов.

Среднее количество хэштегов и среднее количество цифр определенно являются субъективными, а распределение полярности настроений баллы со средним значением 0,29 говорит об общей модерации при выражении своего мнения в Твиттере, и это ограничение, похоже, очень распространено со стандартным отклонением 0,05.

В некоторой степени вышеуказанные предположения можно проверить, просто взглянув на графики разброса с соответствующей переменной и средней оценкой субъективности, извлеченной с помощью анализа настроений. Похоже, что средняя длина твита, среднее количество слов, среднее количество предложений, средняя пунктуация, средние хэштеги, средние числа и средние значения верхнего регистра не зависят от средней субъективности.

В то время как более сильные взаимосвязи легко обнаруживаются на диаграммах разброса пар между средним количеством стоп-слов, средней длиной слова и средней длиной чистого слова Со средней субъективностью. Интересно отметить, что средняя длина слова имеет отрицательную связь с субъективностью, в то время как средняя длина слова имеет положительную связь. В некоторой степени я могу себе представить, что «шумные» слова, которые отбрасываются при очистке текста, такие как стоп-слова, являются как более короткими (среднее значение от 7 до 11 до / после очистки), так и теми, которые выражают меньшую субъективность.

Ни одна из моих гипотез до сих пор не была подтверждена, так как у меня не было предвзятого представления об особенностях и их распределении. Помните, что я в первую очередь пытаюсь доказать, что одна из следующих трех функций будет иметь смысл при использовании в модели классификации для взаимодействия с гражданами.
- оценка настроений
- вес BoW
- умный рейтинг города в индексе

Проверяя корреляцию между переменными, я смогу найти одни особенности, имеющие самые высокие отношения с большинством других. Это позволит определить кластеры функций для уменьшения избыточности в моем наборе данных и выбрать наиболее важные функции перед обучением моих моделей машинного обучения. Поскольку все мои переменные являются числовыми, я также смогу провести регрессионный анализ, чтобы проверить взаимосвязь между ними.

Корреляция и регрессия - это методы для определения уровня взаимосвязи между двумя переменными, но они не работают одинаково. Вот интересное сравнение обоих, проведенное «академией призмы».

- Коэффициент корреляции Пирсона (r) - это мера линейной корреляции между двумя переменными. Его значение находится в диапазоне от -1 до +1, -1 указывает на полную отрицательную линейную корреляцию, 0 указывает на отсутствие линейной корреляции и 1 указывает на полную положительную линейную корреляцию. Кроме того, r инвариантен при отдельных изменениях местоположения и масштаба двух переменных, подразумевая, что для линейной функции угол к оси x не влияет на r. Чтобы вычислить r для двух переменных X и Y, нужно разделить ковариацию X и Y произведением их стандартных отклонений.

2.3 Регрессионный анализ:

- Коэффициент ранговой корреляции Спирмена (ρ) является мерой монотонной корреляции между двумя переменными и, следовательно, лучше улавливает нелинейные монотонные корреляции, чем r . Его значение находится между -1 и +1, -1 указывает на полную отрицательную монотонную корреляцию, 0 указывает на отсутствие монотонной корреляции и 1 указывает на полную положительную монотонную корреляцию. Чтобы вычислить ρ для двух переменных X и Y, нужно разделить ковариацию переменных ранга X и Y на произведение их стандартных отклонений.

- Коэффициент корреляции Phik (φk) согласованно работает между категориальными, порядковыми и интервальными переменными, фиксирует нелинейную зависимость и возвращается к коэффициенту корреляции Пирсона в случае двумерного нормального входного распределения.

Я использовал три разных коэффициента корреляции: R Пирсона, ρ Спирмена и Phi K, чтобы сравнить результаты матриц. Общие оценки корреляции схожи, и я могу выделить несколько групп переменных, которые коррелируют друг с другом:
- Среднее количество цифр, хэштегов и знаков препинания коррелирует со средней длиной твита и средним количеством слов ( raw).
- Количество знаков препинания, хэштегов, цифр и прописных букв не коррелирует с оценкой тональности и весом BoW.
- Среднее количество слов, стоп-слов, предложений и средняя длина слов связаны друг с другом.
- Среднее количество стоп-слов тесно связано со всеми оценками тональности и множеством слов.
- Все оценки настроения сильно коррелируют друг с другом, позитивность в глобальном масштабе сильнее, чем негативность.
- Вес BoW сильно коррелирован друг с другом.
- Оценки настроения и вес BoW коррелируют друг с другом.
- Индекс умного города рейтинг не коррелирует ни с одной переменной.

Таким образом, я могу сказать из этого общего взгляда на матрицу корреляции, что мои функции могут быть каким-то образом переделаны в некоторой комбинации функций, чтобы уменьшить количество переменных, но не теряя слишком много смысла.
- Среднее количество стоп-слов может представлять все лексические атрибуты твитов (числа, хэштеги, пунктуация, длина твита, длина слов и количество предложений).
- Все оценки настроений могут быть сведены к наиболее репрезентативному из них, средней полярности или положительности.
- Общий вес мешков со словами можно свести к одному, поскольку они следуют одной и той же тенденции, он должен быть наиболее репрезентативным, который, кажется, является предпринимательским, который также наиболее коррелирует с оценками настроения.

Также похоже, что одна из моих гипотез уже не подтверждена: рейтинг городов в индексе умных городов 2020 не может использоваться для классификации вовлеченности граждан в умных городах, поскольку он не коррелирует с любые переменные.

Для сравнения, корреляция между средним весом CivicTech BoW и средней позитивностью намного яснее, и корреляция между ними.

ГИПОТЕЗА 3: НЕПРОВЕРКА!

Как насчет двух других моих гипотез? Являются ли оценки настроений и вес BoW значимыми для классификации городов по вовлеченности граждан?
Пока я не могу ответить с большой долей уверенности: по моим корреляционным матрицам кажется, что некоторые оценки настроений коррелируют с некоторыми весами BoW, но корреляция между всеми недостаточно сильна, и она также варьируется между коэффициенты. Я предполагаю, что средняя субъективность соотносится с 3 из 6 BoW: Smart-City, CivicTech и Entrepreneurship.

Чтобы проверить мою ожидающуюся гипотезу с большей уверенностью, я воспользуюсь линейным регрессионным анализом, чтобы продолжить некоторые методы проектирования функций и получить больше доказательств взаимосвязи между переменными.

В статистике «регрессионный анализ» - это процесс оценки взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Наиболее распространенной формой регрессионного анализа является «линейная регрессия», когда исследователь может найти линию, которая наиболее точно соответствует точкам данных в соответствии с определенным математическим критерием. Например, метод «обычных наименьших квадратов» вычисляет уникальную линию, которая минимизирует сумму квадратов разностей между истинными данными и этой линией. Это позволяет оценить условное ожидание зависимой переменной, когда независимые переменные принимают заданный набор значений.

- Линейная регрессия со средней субъективностью в качестве целевой переменной:

В моем случае я не буду использовать линейную регрессию для прогнозирования значений, цель моего регрессионного анализа будет заключаться в том, чтобы вывести причинно-следственную связь между целевой переменной и зависимыми переменными. Я проделаю такую ​​регрессию дважды по двум моим нерешенным гипотезам. Итак, моей целевой зависимостью будут следующие переменные:
- Средняя субъективность
- Средний вес предпринимательства BoW

Моя модель линейной регрессии хорошо предсказывает целевую переменную с использованием других функций моего набора данных. Это означает, что средняя субъективность легко предсказывается другими характеристиками, и, таким образом, это доказывает, что большинство характеристик зависит от средней субъективности.

- Линейная регрессия со средним весом предпринимательского капитала в качестве целевой переменной:

ГИПОТЕЗА 1: ПОДТВЕРЖДЕНО!
Оценка субъективности настроений в значительной степени предсказывается на основе других характеристик из моих наборов данных в Twitter, поэтому я могу сказать, что оценки настроений (которые сильно коррелировали друг с другом) имеют отношение к ранжируйте города по степени вовлеченности граждан. Следовательно, чем больше горожан выразят субъективное мнение о своем городе в Твиттере, тем больше город можно будет считать активно вовлеченным.

Модель линейной регрессии не может правильно предсказать средний вес предпринимательского капитала. Это означает, что средний вес BoW не коррелирует с другими характеристиками, и поэтому мы не можем использовать его в качестве основы для построения прогнозной модели.

3. Модели машинного обучения

ГИПОТЕЗА 2: НЕПРОВЕРКА!
Вес BoW существенно не предсказывается на основе других характеристик из моих наборов данных Twitter, поэтому я не могу сказать, что веса BoW (которые сильно коррелированы друг с другом) имеют отношение к ранжированию городов по их жителям. помолвка. Следовательно, использование определенной лексики, связанной с интересующей темой, не обязательно помогает городам набрать высокий балл.

Если вес BoWs не может быть предсказан на основе других моих атрибутов Twitter, они по-прежнему коррелируют с некоторыми переменными, такими как среднее количество стоп-слов или различные оценки тональности. Таким образом, я могу придумать какой-нибудь проницательный способ использовать эти функции для моей модели прогнозирования, например, использовать их для подвыборки моих наборов данных и поиска оценок настроений по конкретным темам, которые они охватывают, а не по общему набору данных. Действительно, следующая линия множественной регрессии по моему весу BoWs по 6 темам городских исследований, все они представляют корреляцию со средней субъективностью. Это означает, что они также зависят от проверенных оценок настроений целевой переменной.

Чтобы построить лучшую модель ранжирования умных городов на основе вовлеченности граждан, я создам рейтинг вовлеченности для каждого города, исходя из количества твитов с высокой заинтересованностью в каждой из моих 109 выборок.

3.1 Подгонка данных

Пока что я определяю твит с высокой степенью заинтересованности как твит, где:
- средняя полярность настроения ≥ 0,5
- средняя субъективность настроения ≥ 0,75
Поскольку полярность выражается от -1 до 1 и субъективность от 0 до 1, на самом деле я выбираю твиты из 25% лучших в моем наборе данных.

Похоже, что 7 574 твита из 110 850 совпадают с моим определением. Это составляет 6,83% моего набора данных. Глядя на распространение этих популярных твитов по моим городам, я могу сказать, что они случайным образом распределяются по умным городам. Таким образом, я могу присвоить каждому городу оценку вовлеченности, разделив количество активных твитов каждого города на количество твитов в соответствующей выборке. Это дает удовлетворительный результат, который можно использовать для ранжирования городов по динамике взаимодействия с горожанами.

Для этого я создаю категориальную переменную под названием «высокая вовлеченность», чтобы классифицировать 20% городов, наиболее активно участвующих в моем наборе данных. Эта переменная будет использоваться в качестве целевой переменной для моего машинного обучения для ранжирования моделей.

«Выбор функций» в машинном обучении и статистике - это процесс выбора подмножества релевантных функций, переменных или предикторов для построения работающей модели машинного обучения. Основная предпосылка заключается в том, что данные содержат некоторые функции, которые являются либо избыточными, либо нерелевантными и, таким образом, могут быть удалены без значительных потерь информации.

- Оптимальное количество функций:

Поскольку оценка вовлеченности и количество вовлеченных твитов - это те переменные, которые использовались для построения моей последней целевой переменной, так же как и оценки полярности настроений и субъективности, неудивительно, что они являются наиболее важными характеристиками для прогнозирования целевой переменной.

- Важность функции:

- Передискретизация с помощью SMOTE:

«Техника передискретизации синтетического меньшинства (SMOTE)» - это тип увеличения данных, который синтезирует новые сэмплы из существующих. Я воспользуюсь этим, чтобы перевыполнить выборку класса меньшинства в моей целевой переменной. В результате у меня будет новый набор данных из 174 точек данных с той же долей городов с высокой и низкой степенью вовлеченности.

3.2 Прогнозирование активности граждан

Чтобы выбрать наиболее эффективную модель для моей проблемной модели, я запущу четыре разные модели и сравню их оценки точности. Я буду использовать следующие четыре модели классификаторов:
- Логистическая регрессия
- K-ближайшие соседи
- Многослойный персептрон
- Поддержка векторных машин

Логистическая регрессия

Это один из самых фундаментальных алгоритмов, используемых для моделирования отношений между зависимой переменной и одной или несколькими независимыми переменными. Подобно модели линейной регрессии, но используется для дискретного числа результатов, логистическая регрессия использует логистическую функцию для моделирования двоичной зависимой переменной.

K-Ближайшие соседи

В статистической классификации алгоритм KNN используется для классификации объекта по множеству голосов его соседей, при этом объекту присваивается класс, наиболее распространенный среди его k ближайших соседей. k - целое положительное число, обычно небольшое. k -NN - это тип обучения на основе экземпляров, при котором функция аппроксимируется локально, а алгоритм основывается на расстоянии для классификации.

Многослойный персептрон

MLPClassifier - это модель искусственной нейронной сети, которая оптимизирует функцию потери журнала. В качестве ИНС он использует набор подключенных модулей ввода / вывода, где каждому соединению присвоен вес. На этапе обучения сеть обучается, регулируя веса , чтобы иметь возможность предсказать правильную метку класса входных данных.

Машины опорных векторов

Машина опорных векторов - это метод контролируемой классификации, который находит гиперплоскость или границу между двумя классами данных, которая максимизирует разницу между два класса. Есть много плоскостей, которые могут разделять два класса, но только одна плоскость может максимизировать запас или расстояние между классами.

3.3 Выводимая статистика

В целом, я могу сказать, что классификатор K-ближайших соседей - это модель, обеспечивающая наилучшую производительность в прогнозировании классификации городов с высокой степенью вовлеченности на основе моих сокращенных функций Twitter. Он имеет хорошие показатели точности и сбалансированный уровень ошибок. Тем не менее, оценка точности 82% неудивительна, и я должен найти несколько способов улучшить ее работу. Руководящим принципом будет запуск моделей на различных комбинациях выбранных функций.

«Логическая статистика» использует данные, чтобы узнать о населении, которое, как предполагается, представляет выборка данных, в моем случае это активно вовлеченные граждане умного города. С помощью статистических выводов можно прийти к выводам, выходящим за рамки фактического набора данных.
Если модели машинного обучения используются для прогнозирования внутри набора данных, вероятностные модели используются для прогнозирования обширных данных с использованием вероятности возникновения события и статистической проверки гипотез.

Заключение - запомнить для следующих шагов

Чтобы проверить мою проблемную тему: Могу ли я использовать некоторые особенности, извлеченные из твитов, для построения модели прогнозирования общественного мнения в умных городах? Я сформулирую две гипотезы для проверки:
- НУЛЕВАЯ ГИПОТЕЗА: я не могу использовать некоторые особенности, извлеченные из твитов, для построения модели прогнозирования общественного мнения в умных городах.
- АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА: Я могу использовать некоторые особенности, извлеченные из твитов, для построения модели прогнозирования общественного мнения в умных городах.

Я проведу проверку гипотезы, называемую анализом ковариации, чтобы узнать, достаточно ли у меня доказательств в моем исследовании, чтобы отвергнуть нулевую гипотезу.

- ANOVA (F-ТЕСТ): t-тест хорошо работает при работе с двумя группами, но иногда мы хотим сравнить более двух групп одновременно. Например, если мы хотим проверить, различается ли возраст избирателя на основе какой-либо категориальной переменной, такой как раса, мы должны сравнить средние значения каждого уровня или сгруппировать переменную. Мы могли бы провести отдельный t-тест для каждой пары групп, но когда вы проводите много тестов, вы увеличиваете вероятность ложных срабатываний. «Дисперсионный анализ» или ANOVA - это тест статистического вывода, который позволяет одновременно сравнивать несколько групп.

Учитывая обычный уровень значимости 0,05, я не могу найти достаточно доказательств, чтобы отвергнуть нулевую гипотезу. Однако этот статистически незначимый результат не завершает мое исследование. Несбалансированность размеров моих выборок, вероятно, является одной из причин ослабления производительности этого теста ANOVA.

Кстати, даже если я не смог статистически доказать это с помощью этой проверки гипотез, кажется довольно очевидным, что оценки анализа настроений адаптированы для ранжирования городов или любой другой выборки на основе полярности и субъективности, обнаруженной в твитах.

До сих пор мне не удалось статистически доказать возможность обобщения моих моделей ранжирования по вовлечению граждан в умный город. И тот, который построен на основе моего предыдущего исследования, и тот, который построен на этом исследовании интеллектуального анализа данных в Twitter, обеспечивает удовлетворительную производительность для прогнозирования значений внутри набора данных, но не имеет статистических данных, чтобы доказать их достоверность в глобальном масштабе. Возможно, я не владею этой статистикой вывода и проверкой гипотез правильно. Также возможно, что я теряю смысл, пытаясь соединить микро- и макроуровень без установки промежуточных звеньев. Я буду больше думать об этом в ближайшие месяцы, до окончания моей диссертации.

Об авторе :

Тем не менее, я обнаружил некоторые интересные выводы из этого майнинга Twitter:
- Если стандартный формат твиттера имеет тенденцию нормализовать твиты, пользователи действуют сами по себе, и у твитов не так много систематических атрибутов.
- Однако грамматические правила языка, а также длина слов являются более определяющими для соответствующих функций.
- Некоторые функции, такие как среднее количество стоп-слов, сильно зависят от субъективности, в то время как некоторые другие, такие как среднее количество знаков препинания, не зависят вообще.
- Появляются некоторые группы функций, которые сильно коррелируют друг с другом. Примечательно, что вес BoWs все вместе находятся в тесной взаимосвязи, так же как и разные оценки настроения. Это означает, что их можно легко свести к одной комбинированной переменной, чтобы избежать избыточности в моей модели.

Я также доказал, что рейтинг «умного города» бизнес-школы IMD не имеет отношения к вовлеченности граждан. Ни использование лексики урбанистики, даже если доказано, что продолжительность обучения зависит от оценки субъективности. Действительно, единственной релевантной переменной для построения модели прогнозирования общественного мнения, по-видимому, является комбинация различных оценок настроений, особенно полярности и субъективности. Итак, после определения твита с высокой степенью заинтересованности по оценкам полярности настроений и субъективности, я создал категориальную переменную под названием «высокая вовлеченность», чтобы классифицировать 20% городов в моем наборе данных с наибольшей вовлеченностью. Я определил эту переменную как цель моих четырех моделей машинного обучения и обнаружил, что классификатор K-Nearest Neighbours - это единственная модель, обеспечивающая наилучшую производительность при прогнозировании классификации городов с высокой степенью вовлеченности на основе взаимодействия граждан в Twitter.

Поскольку моя целевая переменная «высокая вовлеченность» является результатом фильтрации наиболее позитивных и субъективных твитов, я потенциально могу использовать ее для прогнозирования общественного мнения. Итак, последним шагом этого исследования было проверить, могу ли я использовать свою прогностическую модель в глобальном масштабе. Ковариационный анализ, проведенный на трех выборках из моих тематических исследований, которые далеко не самые крупные, не позволяет мне статистически проверить мою модель: существует слишком большая разница в стандартных отклонениях от средних между этими тремя выборками, чтобы подтвердить мои прогнозы. в мировом масштабе. Однако действительность моей модели также не отвергается, и я смогу продолжать улучшать ее до тех пор, пока не получу статистическое доказательство ее достоверности.

На следующем этапе исследования я буду работать над топологией того же набора данных Twitter и моделировать сложную сеть пользователей. Встраивая сообщества социальной сети, глядя на то, кто с кем связан, и какие группы пользователей делятся между собой одной и той же информацией, я установлю связь с типами и категориями граждан (государственный, частный, академический, гражданский и медийный секторы). ). Это позволит мне провести второй раунд анализа моих предыдущих исследований, чтобы проверить, проистекают ли некоторые конкретные атрибуты вовлеченности граждан из типа или категории гражданства.
Например, есть ли у определенных категорий граждан более информативный токен на твит? Выражают ли пользователи из частного сектора более поляризованные настроения, чем в государственном секторе? Получают ли они больше лайков на свои твиты, чем другие?

Я начал свою карьеру в качестве независимого застройщика в Перпиньяне, на юге Франции (2009–2017 гг.), Прежде чем перейти к городским инновациям с особым интересом к новым бизнес-моделям и социальным инновациям в городах. Мой первый стартап OpenPI (2014) был посвящен распространению ценностей и процессов с открытым исходным кодом в области городского развития, чтобы собрать соседей для принятия решений по местному городскому планированию.

Извлечение функций - НЛП, анализ настроений
- Функции на уровне твитов
- Функции на уровне города
- Лексическое преобразование

В 2018 году я защитил кандидатскую диссертацию на тему «Взаимодействие с заинтересованными сторонами в умных городах», чтобы оценить свой опыт в этой области в академическом звании, и использовал это время, чтобы повысить свои навыки в области науки о данных, расширить международную сеть и получить более широкий кругозор. мой рынок.

TWITTER MINING: модель прогнозирования общественного мнения, обученная взаимодействию граждан в 100…