Но какие именно и почему?

Авторы: Морган Хогенмиллер, Джек Мазанек и Валери Хуанг

Разбор TED.

Почти каждый смотрел хотя бы одно выступление на TED. Лучшие из них собирают миллионы просмотров на Youtube и служат бесплатным ресурсом для пользователей во всем мире, где они могут получать информацию и вдохновение о том, что происходит в мире вокруг них. Из-за большого количества докладов, циркулирующих сейчас в Интернете (более 2700), трудно получить полное представление о том, что может предложить канал TED при поиске на Youtube. Почти невозможно понять широту того, что нужно изучать и что вам следует смотреть. Наш проект помогает предоставить эту информацию. Так что не тратьте больше времени на слепой поиск чего-то интересного или познавательного для просмотра. Мы вас прикрыли!

Данные:

Данные, которые мы использовали для анализа выступлений TED, взяты из репозитория Kaggle.

https://www.kaggle.com/rounakbanik/ted-talks/data

Данные содержат все, от полных расшифровок видео до количества комментариев к видео, тегов видео, рейтингов, описаний и ссылок.

Изучаем наши данные и делаем прогнозы

(Большая сессия вопросов и ответов)

Начнем с анализа тегов

В: Набирают ли одни теги больше просмотров, чем другие?

О: Чтобы выяснить это, мы сначала получили все теги, используемые в каждом выступлении. Затем мы хотели найти для каждого отдельного тега среднее количество просмотров, которое он получает во всех обсуждениях, в которых он используется. Сделав это, мы обнаружили, что 10 самых популярных тегов:

1.) язык тела: в среднем 7993455,09 просмотров за разговор
2.) тестирование: в среднем 6657858,0 просмотров за разговор
3.) успех: в среднем 6454556,61 просмотров за разговор
4.) интроверт: в среднем 6303975,6 просмотров за разговор
5.) внимательность: 4335876,6 в среднем просмотров за разговор
6.) зло: 4283967,0 в среднем просмотров за разговор
7.) танец: 4122717,16 в среднем просмотров за разговор
8 .) продуктивность: 4048263,35 в среднем просмотров за беседу
9.) зависимость: 4033930,2 в среднем просмотров за беседу
10.) магия: 4021694,06 в среднем просмотров за беседу

Наряду с этим мы хотели увидеть распределение средних просмотров по всем тегам. Для этого мы помещаем данные в гистограмму. Из гистограммы видно, что распределение сильно смещено вправо. Несколько тегов, кажется, получают значительно больше просмотров, чем большинство других тегов.

Затем мы хотели установить минимальную частоту использования тега в данных. Изначально мы решили установить это значение равным 5. Мы сделали это, чтобы избавиться от шума в данных. Например, тег может иметь очень высокое среднее значение только потому, что он использовался только в одном выступлении, и это выступление было действительно популярным из-за другого тега. Мы обнаружили, что топ-10 самых популярных докладов очень похожи на предыдущие топ-10, содержащие несколько отличающихся тегов:

1.) язык тела: 7993455,09
2.) успех: 6454556,61
3.) интроверт: 6303975,6
4.) осознанность: 4335876,6
5.) танец: 4122717,16
> 6.) продуктивность: 4048263,35
7.) зависимость: 4033930,2
8.) магия: 4021694,06
9.) время: 3893878,59
10.) баланс между работой и личной жизнью: 3873959,5

Затем мы хотели посмотреть, существенно ли отличается распределение, и обнаружили, что это не так:

Взаимосвязь между тегами

Вопрос: есть ли определенные теги, которые связаны с обсуждениями значительно больше, чем другие теги?

О: Чтобы ответить на этот вопрос, мы создали сеть, в которой узлы являются тегами, а соединения соединяют теги, которые использовались в одной и той же речи. Мы обнаружили, что было 416 тегов, всего 22149 соединений, а средний узел имел 53,24 ребра. Ниже представлено визуальное представление сети. Легко видеть, что несколько узлов имеют относительно мало соединений, в то время как многие имеют много соединений.

После этого мы обнаружили, что все 10 наиболее связанных тегов были очень общими темами, которые могли охватывать и быть связанными со многими другими тегами:

1.) технологии: 370
2.) tedx: 365
3.) наука: 354
4.) инновации: 335
5.) глобальные проблемы: 335
> 6.) общество: 316
7.) культура: 316
8.) сотрудничество: 312
9.) будущее: 311
10.) человечество: 305

Наконец, мы хотели просмотреть общее распределение подключений. Как видно из приведенной ниже гистограммы, распределение смещено вправо. Пара тегов значительно более связана, чем большинство. Это может быть связано с тем, что Ted Talks могут затрагивать очень разные темы, которые связаны между собой какими-то универсальными темами и тенденциями (например, технологиями).

Сфокусироваться на прогнозировании интересов

В: Как можно использовать теги для прогнозирования разговоров?

О: Прежде чем создавать нашу систему рекомендаций, мы решили проверить, как теги сами по себе могут помочь предлагать обсуждения. Итак, мы создали функцию, которая позволяет вам выбрать интересующий вас тег из облака слов всех тегов в наборе данных. У вас также есть возможность выбрать более одного тега, если вас интересует конкретная комбинация. После мероприятия мы возвращаем вам выступления TED, относящиеся к выбранной вами теме. Наша методология включает в себя поиск докладов, которые содержат теги или комбинации тегов, которые вы выбрали. Список рекомендуемых вам выступлений TED будет отсортирован по популярности, и мы также предоставим вам статистику (название, описание и популярность) по каждому выступлению, как показано ниже. Рекомендуемые доклады, приведенные ниже, основаны на интересе пользователя к тегам «технологии», «музыка» и «наука».

В: Существует ли модель, которая может предсказать, какие доклады получат наибольшее количество просмотров?

О: Следующий вопрос, на который мы хотели ответить, заключался в том, существует ли формула или рецепт для создания популярного выступления на Ted Talk и можем ли мы создать модель, предсказывающую, сколько просмотров получит выступление. Для этого мы сначала создали матрицу набора слов для всех описаний всех разговоров в наборе данных. По сути, это двумерный список, строки которого представляют каждое выступление, а столбцы — частоту всех не стоп-слов в каждом описании. Затем мы вводим это в модель регрессии Лассо, где значение «y» представляет собой общее количество просмотров каждого выступления. Регрессия Лассо — это модель регрессионного анализа, которая выбирает переменные и выполняет регуляризацию, чтобы максимизировать точность прогноза. После того, как мы подогнали эту модель, мы создали базовый пользовательский интерфейс, который позволяет пользователю вводить примерное описание, а модель предсказывает, сколько просмотров она получит. Мы также рассчитали значение R в квадрате для данных и получили значение 0,9999.

Система рекомендаций

Мы также хотели создать динамическую систему рекомендаций Ted Talk. Мы хотели, чтобы система учитывала историю разговоров пользователя с Ted, тематические предпочтения пользователя и предыдущие отзывы других людей при формировании рекомендации. Мы хранили все доклады в словаре, где ключом было название, а значением — список. Первое значение в списке изначально установлено равным нулю для всех разговоров. В начале программа спрашивает пользователя, какие темы он хочет слушать. Затем программа перебирает каждое выступление и, если выступление содержит одну из этих тем в качестве тега, увеличивает первое значение в ранее упомянутом списке на единицу. На эти значения также влияет реакция пользователя на рекомендации и мнения о ранее прослушанных выступлениях. Мы используем поле обсуждения данных, связанное с данными, чтобы эффективно обновлять предпочтения пользователя. Второе значение в списке получается путем циклического просмотра каждого рейтинга, получения его оценки тональности, а затем умножения оценки тональности на количество раз, когда рейтинг использовался в комментариях. Например, рейтинг может быть «Хорошим», иметь оценку тональности 0,25 и частоту 4000. Тогда значение второго поля будет увеличено на 1000. Метод сортировки Python сначала сортирует на основе первого значения, а затем сортирует на основе второго значения.

Ознакомьтесь с нашей моделью предикторов и рекомендаций, нажав на ссылку ниже!

https://github.com/jmazanec15/BigDataFinal/blob/master/DissectingTed.ipynb

Далее: анализ настроений

Вопрос. Есть ли тенденция в настроении по определенным темам с течением времени?

О: Интересно наблюдать, как общие «эмоции» или «настроение» выступлений TED меняются с годами. Мы думаем, что за кулисами доклады и гости, выбранные для докладов каждый год, подразумевают тенденцию тем, которые нас волнуют и интересуют во всем мире. Таким образом, мы хотели бы использовать анализ настроений, который представляет собой процесс компьютерной идентификации и категоризации мнений, выраженных в фрагменте текста, чтобы определить, является ли отношение беседы к определенной теме положительным, отрицательным или нейтральным. Инструмент, который мы используем, представляет собой анализ тональности на основе пакета Afinn в Python. Более положительная оценка указывает на более положительные эмоции и наоборот.

В общей сложности имеется 2467 докладов с действительными стенограммами, и мы сначала провели анализ настроений по всем докладам, чтобы получить общее представление о результатах. Мы решили классифицировать их по годам. Для этого мы сначала изменили даты в временной метке unix на читаемые даты и получили из них 4-значный год. Мы использовали год фильма, а не год публикации, поскольку нас беспокоят оценки настроений, когда они снимали фактическое выступление. Затем мы создали словарь, чтобы перечислить все годы с оценками настроений по всем выступлениям, снятым в этом году. Например, результат 2004 года будет:

2004: [107.0, 161.0, 28.0, 39.0, 209.0, 246.0, 138.0, 85.0, 20.0, 64.0, 68.0, 16.0, 104.0, 201.0, 100.0, 236.0, 103.0, 129.0, 292.0, 334.0, 45.0, 120.0, 194.0, 170.0, 143.0, 106.0, 55.0, 82.0, 52.0, 108.0, 51.0, 185.0]

Чтобы увидеть тенденцию с годами, мы решили рассчитать средний показатель тональности выступлений за год. Поэтому мы делаем еще один словарь, чтобы заменить только годы и средний балл настроений, который выглядит так:

1984: 121.0
1990: 198.0
1994: 76.0
1998: 95.1666666667
2001: 69.5
2002: 96.962962963
2003: 82.0606060606
2004: 124.71875
2005: 78.9838709677
2006: 87.914893617
2007: 72.2545454545
2008: 71.7875
2009: 63.1735159817
2010: 63.8062015504
2011: 56.1966527197
2012: 51.7969348659
2013: 51.8134328358
2014: 51.0253164557
2015: 48.8577405858
2016: 46.9262295082
2017: 58.4387755102

Затем мы строим их для визуализации тренда с помощью matplotlib и получаем:

Из этого графика видно, что показатель настроений имеет тенденцию к снижению с 1984 по 2017 год, но остается положительным. Этот результат ожидаем, поскольку мы часто чувствуем себя воодушевленными, наблюдая за выступлениями TED, но график также показывает нам, что более свежие темы включают более серьезные проблемы, которые могут натолкнуть нас на мысли о том, как решить серьезную проблему в мире. Кроме того, переговоры становятся более сбалансированными и реалистичными за счет решения проблем, а не изображения идеализированного общества.

В: Какие темы ежегодно обсуждаются больше всего?

О:Выступления TED охватывают широкий спектр идей, и каждый год нас интересуют наиболее распространенные темы. Поскольку выступления TED доступны подавляющему большинству людей во всем мире, мы думаем, что они в какой-то степени показывают проблемы, которые нас больше всего беспокоят и которые мы хотели бы услышать. Мы решили использовать «тэги» каждого выступления TED и подсчитать их, чтобы создать более числовое представление этого.

Сначала мы группируем теги по годам, чтобы мы могли видеть все теги, связанные со всеми выступлениями в определенном году. Мы используем словарь для хранения тегов каждого выступления с его годами, а затем создаем другой словарь, чтобы объединить весь список тегов в один список, связав его с годом. После этого мы используем метод счетчика, чтобы преобразовать список в формат, который дает тег и сколько раз он появлялся во всех обсуждениях в течение определенного года.

Например, если мы хотим увидеть вхождения тегов в 2004 году, мы получим:

2004: {'культура': 12, 'развлечения': 10, 'технологии': 10, 'дизайн': 7, 'счастье': 7, 'представление': 6, 'психология': 6, 'наука': 6 , «музыка»: 5, «бизнес»: 5, «мозг»: 4, «изобретения»: 4, «глобальные проблемы»: 3, «экономика»: 3, «культура»: 3, «эволюционная психология»: 3 , «Консьюмеризм»: 3, «Рассказывание историй»: 3, «Иллюзия»: 3, «Маркетинг»: 3, «TED Brain Trust»: 3, «Инженерия»: 2, «Юмор»: 2, «Океаны»: 2 , «эволюция»: 2, «искусство»: 2, «программное обеспечение»: 2, «искусство»: 2, «биология»: 2, «биомеханика»: 2, «транспорт»: 2, «архитектура»: 2, « города': 2, 'выбор': 2, 'живая музыка': 2, 'демо': 2, 'мозг': 2, 'красота': 2, 'творчество': 2, 'бизнес': 2, 'рыба ': 1, 'язык': 1, 'пол': 1, 'работа': 1, 'история': 1, 'предприниматель': 1, 'TED Brain Trust': 1, 'энергия': 1, 'познавательный наука»: 1, «онлайн-видео»: 1, «страх»: 1, «письмо»: 1, «генетика»: 1, «интроверт»: 1, «математика»: 1, «еда»: 1, «вундеркинд» ': 1, 'женщины': 1, 'вера': 1, 'магия': 1, 'типографика' : 1, 'обезьяны': 1, 'биология': 1, 'разведка': 1, 'дизайн': 1, 'развлечения': 1, 'танцы': 1, 'альтернативная энергетика': 1, 'здоровье': 1, «медиа»: 1, «поэзия»: 1, «фортепиано»: 1, «биоразнообразие»: 1, «фотография»: 1, «нейронаука»: 1, «компьютеры»: 1, «разум»: 1, «Буддизм»: 1, «сознание»: 1, «интеллект»: 1, «творчество»: 1, «сообщество»: 1, «сеть»: 1, «мир»: 1, «наркотики»: 1, «медицина». ': 1, 'комедия': 1, 'шопинг': 1, 'животные': 1, 'автомобили': 1, 'будущее': 1, 'книги': 1, 'театр': 1, 'гонки': 1, «здравоохранение»: 1, «образование»: 1, «общество»: 1, «сотрудничество»: 1, «религия»: 1, «личность»: 1, «литература»: 1, «Google»: 1 , «сотрудничество»: 1, «философия»: 1, «Бог»: 1}

Поскольку многие слова появляются только один раз, что делает список довольно длинным, мы решили убрать из него 10 наиболее распространенных слов, чтобы получить более релевантный результат.

'2002': [('технология', 11),
('дизайн', 10),
('культура', 9),
('наука', 9),
('наука', 9),< br />('развлечения', 5),
('транспорт', 5),
('города', 5),
('глобальные проблемы', 4),
('юмор', 4),
('история', 3)],
'2004': [('культура', 12),
('развлечение', 10 ),
('технология', 10),
('дизайн', 7),
('счастье', 7),
('производительность', 6),
('психология', 6),
('наука', 6),
('музыка', 5),
('бизнес', 5)],< br /> '2014': [('технологии', 41),
('наука', 29),
('глобальные проблемы', 28),
('TEDx', 26),
(«здоровье», 23),
(«TED Fellows», 22),
(«активизм», 15),
(«война», 15 ),
('фотография', 14),
('дизайн', 14)],
'2015': [('наука', 55),
(' технологии», 51),
(«инновации», 39),
(«общество», 36),
(«будущее», 36),
(«глобальные проблемы ', 33),
("здоровье", 33),
( 'TEDx', 28),
("человечество", 28),
("общение", 27)],
'2016': [('общество', 103),< br /> («человечество», 81),
(«инновации», 75),
(«социальные изменения», 73),
(«технологии», 73),
(«общение», 71),
(«сообщество», 60),
(«личность», 59),
(«будущее», 57),
('наука', 56)],
'2017': [('общество', 40),
('человечество', 31),
('социальные изменения', 29) ,
(«технологии», 26),
(«общение», 24),
(«будущее», 24),
(«личностный рост», 18),
(«инновации», 17),
(«глобальные проблемы», 16),
(«сообщество», 16)]

Наконец, мы визуализируем это, создавая столбчатую диаграмму для каждого года со словами и соответствующими случаями. Вот несколько примеров из последних лет:

Эти результаты интересны. Мы видим, что «технология» всегда имеет место в списке. В последние годы «человечество» и «общество» становятся все более обсуждаемыми темами.

Вот список трех наиболее распространенных тем за последние годы:

{'1984': [('дизайн интерфейса', 1), ('развлечение', 1), ('демо', 1)],
'1990': [('совместная работа', 1), ( 'технологии', 1), ('глобальные проблемы', 1)],
'1994': [('эволюция', 1), ('жизнь', 1), ('ДНК', 1)] ,
'1998': [('технология', 5), ('дизайн', 4), ('культура', 2)],
'2001': [('культура', 2 ), ('поэзия', 2), ('искусство', 1)],
'2002': [('технология', 11), ('дизайн', 10), ('культура', 9 )],
'2003': [('технология', 13), ('наука', 11), ('дизайн', 9)],
'2004': [('культура' , 12), ('развлечение', 10), ('технология', 10)],
'2005': [('культура', 30), ('технология', 28), ('наука' , 20)],
'2006': [('культура', 19), ('технологии', 16), ('глобальные проблемы', 15)],
'2007': [( 'технологии', 51), ('глобальные проблемы', 43), ('дизайн', 27)],
'2008': [('наука', 28), ('технологии', 27), ('развлечение', 25)],
'2009': [('технологии', 76), ('наука', 56), ('глобальные проблемы', 50)],
'2010 ': [('наука', 67), ('технологии', 65), ('глобальные проблемы', 63)],
'2011': [('технологии', 78), ('наука', 69), ('культура', 57) ],
'2012': [(' технология', 74), (' наука', 58), ('TEDx', 55)],
'2013': [(' технология', 62), ('глобальные проблемы', 39), ('культура', 37)],
'2014': [('технологии', 41), ('наука', 29), ('глобальные проблемы ', 28)],
'2015': [('наука', 55), ('технология', 51), ('инновация', 39)],
'2016': [( 'общество', 103), ('человечество', 81), ('инновации', 75)],
'2017': [('общество', 40), ('человечество', 31), ( 'социальные изменения', 29)]}

Из этих результатов мы можем сделать некоторые выводы о том, что нас больше всего интересует в последние десятилетия. Основной тенденцией является «технология, дизайн, культура» в сторону «технологии, глобальные проблемы, наука», а в последнее время — «общество, человечество, инновации». Если объединить эти данные с тенденциями мировых проблем, мы увидим, что выступления на TED очень важны для того, на чем мы сосредоточены в настоящее время, и являются ценным способом приблизиться к самым новаторским идеям во всем мире.

И сходство слов…

В: Какое отношение имеет сходство слов к нашему интересу к выступлениям на TED?

Этот вопрос был вдохновлен простым сюжетом, который мы создали на этапе исследовательского анализа этого проекта. Мы создали график ниже, чтобы увидеть, коррелирует ли вообще количество просмотров видео с количеством комментариев, которые оно получило. В целом, похоже, не было линейной зависимости между количеством просмотров и количеством комментариев, собранных под видео. Интересно, что мы обнаружили выброс в количестве комментариев, который соответствовал относительно низкому количеству просмотров. Это вдохновило нас на исследование названия этого видео с наибольшим количеством комментариев. Заголовок назывался «Воинствующий атеизм», и, пойдя немного дальше и изучив названия видео с 3 самыми популярными комментариями, мы обнаружили закономерность между этим заголовком и другими заголовками: «Убивают ли школы творчество» и «Наука может дать ответ». Моральные вопросы. Все они содержали странные сочетания предметов. Военные и религия, школа и убийство, наука и мораль. Это побудило нас проанализировать влияние, казалось бы, совместимых тем на скорость отклика и количество просмотров.

Чтобы понять распределение сходства между словами в заголовках и количеством комментариев к ним, мы обратились к Word2Vec. Word2vec — это интеллектуальный, предварительно обученный метод встраивания слов, который использует большую нейронную сеть, представляющую слова в массивном векторе, для получения информации об отношениях между словами. Мы хотели обучить эту модель названиям в нашем наборе данных TED, чтобы узнать о сходстве слов в каждом из них.

После обучения Word2Vec названиям докладов мы создали измерение, используя функцию «сходства» из Word2vec, чтобы представить среднюю оценку сходства слов в каждом заголовке. В нашем измерении используется Word2vec для оценки сходства каждого набора из двух слов в заголовке, сложения оценок схожести и деления суммы на общее количество слов в заголовке.

В отличие от наших наблюдений относительно сходства слов в заголовках, которые дают наибольшее количество комментариев, наш анализ с использованием Word2vec показывает, что количество комментариев увеличивается по мере увеличения сходства слов в заголовках.

Вышеприведенное замечание относится и к представлениям. По мере того, как растет сходство между словами в заголовках, количество просмотров также увеличивается. Это намекает на то, что обычно мы предпочитаем смотреть видео с названиями, которые звучат более логично, или чьи слова чаще связаны между собой.

Наконец,

В: Что нужно помнить, если мы хотим сделать хорошее выступление на TED?

О:Ниже мы провели последние несколько исследований, чтобы выяснить, о чем вам следует подумать, если вы хотите сами выступить на TED. Ниже показаны наиболее часто используемые слова в выступлениях TED, которые набирают 10 % просмотров из нашего набора данных.

Еще одна вещь, которую мы обнаружили важной для успеха видео с точки зрения просмотров, — это продолжительность видео. Из приведенного ниже графика видно, что примерно через 1500 секунд (25 минут) количество просмотров выступлений TED резко уменьшается, и около 20 минут кажутся оптимальными. Итак, если вы планируете создать успешное выступление на TED, расскажите о счастье, о чем-то новом, хорошем или мирском, и сделайте это кратко и приятно.

Заключение

Из одного набора данных мы смогли получить широкий спектр фактов о характере выступлений TED, которые существуют на Youtube. Мы узнали, что определенные теги можно использовать для прогнозирования просмотров и рекомендации видео, потому что они обладают полезной силой в обучении каждому выступлению. Мы также узнали, что настроения в выступлениях TED со временем меняются, указывая на тот факт, что наша модель рекомендаций, а также остальная часть нашего анализа и анализа того, чего люди хотят в целом, всегда будут меняться с течением времени. Мы узнали, что для создания успешного выступления необходимо учитывать такие аспекты выступления, как продолжительность, расположение слов и выбор. В конце концов мы узнали, что есть способы предсказать, какими идеями действительно «стоит поделиться».