Заявление об ограничении ответственности: эта статья была написана в рамках курса Data Engineering 2 в Центральноевропейском университете, и это лишь малая часть анализа обзоров фильмов.

Amazon Comprehend - это сервис обработки естественного языка, который использует машинное обучение для поиска идей и взаимосвязей в тексте без какого-либо предшествующего опыта машинного обучения. Несмотря на то, что он способен на многие захватывающие вещи, сегодня я сосредоточусь на том, как он может определять настроения в двух обзорах, написанных о недавно вышедшей премьере фильма Веном с Томом Харди в главной роли.

Прежде чем погрузиться в кодирование, мне нужно было начать с двух вещей:

  • Учетная запись AWS, чтобы я мог использовать Comprehend (если вы хотите продолжить, не забудьте настроить пару ключей в консоли управления IAM, это то, что вы будете использовать из R для подключения к сервисам Amazon - убедитесь, что вы сохранили его в надежном месте и никому не передаете).
  • И R Studio, чтобы написать свой код на R.

Настройка моей среды

После загрузки закрытого и открытого ключей из файла «accessKeys.csv», который я загрузил с AWS, я мог настроить среду, используя Sys.setenv () с моими учетными данными.

Для этого задания я использовал три пакета - rvest и aws.comprehend для очистки веб-сайтов на предмет содержания обзоров и выполнения анализа настроений, а также ggplot2 , чтобы визуализировать мои выводы.

Мы Веном

Я часто читаю обзоры фильмов, прежде чем решу потратиться на попкорн и колу (и, конечно же, билеты в кино), а Metacritic предлагает отличную коллекцию обзоров на фильмы, телешоу, игры - почти все. Оглядываясь назад, я должен был послушать обзоры, которые были написаны о Venom, но шумиха была слишком сильной, я должен был это посмотреть. Мог бы я сэкономить немного денег, если бы сначала выполнил этот анализ? Посмотрим!

Погоня за крайностями

Я выбрал два обзора - лучший и худший - чтобы проверить:

  1. Они действительно положительные и отрицательные.
  2. Посмотрите, насколько различны звуки, которые AWS Comprehend может… хорошо понять.

В обоих случаях я просматривал веб-сайты в поисках фактического содержания статей, избавлялся от любых разрывов строк и табуляции, а затем смотрел, как положительные и отрицательные настроения соотносятся друг с другом, используя диаграмму рассеяния.

Лучший обзор получил 75 баллов из 100 от IndieWire. Это представлено зелеными точками на графике выше. Как мы видим, эти значения разбросаны по оси x, но их негативное отношение практически не имеет значения. Так что, похоже, это действительно положительный обзор - по крайней мере, на основе этой простой диаграммы рассеяния.

Красные точки обозначают худший отзыв, который получил 12 баллов от The Globe and Mail в Торонто. Здесь точки более разбросаны, с некоторыми крайними отрицательными значениями. Если мы посмотрим на красную точку вокруг y = 0,8 и сравним ее с соответствующим абзацем, где мы сможем найти такие слова, как коварный, избегаемый и наименее приятный , мы видим, что точки не лгут.

Вывод

В целом, AWS Comprehend, кажется, довольно точно оценивает эти статьи, но, конечно, чтобы прийти к универсальному выводу, нам пришлось бы проанализировать гораздо больше обзоров и фильмов.

Видя, как даже самый положительный отзыв кажется нейтральным на основе диаграммы рассеяния выше, а отрицательное изображение - наиболее отрицательными красками обзора фильма - и добавляя промежуточные точки данных (обзоры) - мне, вероятно, следовало остаться дома вместо того, чтобы пойти в кино.

Возможно, к тому времени, когда выйдет второй фильм, я уже закончу создание базы данных с сотнями обзоров и проведу более тщательное исследование в этой захватывающей области.