Борьба с предвзятостью СМИ с помощью НЛП | Навстречу AI

Борьба с предвзятостью СМИ с помощью AWS Amazon Comprehend

В мире фальшивых новостей и субъективного освещения в СМИ, основанного на идеологии, сомнительно, какие источники журналистики можно считать «надежными». Часто случается, что два разных новостных агентства разделяют два совершенно разных взгляда на одну и ту же историю. «Эксперты» отмечают разные последствия событий по всему спектру, в основном те, которые соответствуют их собственной повестке дня.

В наше время важно выявить предвзятость различных новостных организаций по отношению к определенным темам.

Может ли машинное обучение помочь обнаружить эти предубеждения?

AWS

Amazon Comprehend - это сервис обработки естественного языка (NLP), который использует машинное обучение для поиска идей и взаимосвязей в тексте. (Источник: aws.amazon.com).

Сочетание AWS Comprehend с возможностями парсинга веб-страниц языка R (пакет rvest) позволяет проводить анализ двух статей, написанных на одну и ту же тему, из два новостных сайта с предположительно разной идеологией.

Освещение Трампа

Речь идет об оценке Дональда первых 100 дней на посту президента США Дональда Трампа. В американской политике действия, имевшие место в течение первых ста дней после выборов, часто являются хорошим приближением к общему маршруту, по которому нынешний президент готов идти в течение своего срока, поэтому эта тема широко освещается как левыми, так и политическими кругами. Правильно.

Первая статья о первых 100 днях Трампа опубликована в Breitbart News, которое считается информационным агентством альтернативных правых, с такими обозревателями, как Майло Яннопулус и бывший председатель Breitbart и главный стратег Белого дома Стив Бэннон. .

Вторая статья написана Buzzfeed, медиа-компанией с радикальным левым крылом, финансируемой Джоном Перетти, соучредителем The Huffington Post.

Необработанный текст доступен после анализа HTML-содержимого этих статей с помощью веб-парсинга и селектора CSS. После небольшой очистки данных можно провести анализ настроений Amazon по каждому абзацу статей. Каждому из них присваивается общее настроение «Положительное», «Нейтральное» или «Отрицательное» с дополнительными данными о проценте уверенности. Например: положительная оценка абзаца 0,78 означает, что Comprehend на 78% уверен, что этот абзац имеет положительный настрой.

Краткое содержание двух статей можно увидеть ниже:

Мы видим, что у Breitbart больше нейтральных заявлений, чем у Buzzfeed, и у него более высокое среднее значение положительных настроений. С другой стороны, у него почти такие же негативные настроения, в то время как отрицательная ценность Buzzfeed более чем в 3 раза больше, чем у Breitbart.

График ниже иллюстрирует разницу между негативными настроениями:

Медиана негативных настроений немного выше в абзацах Buzzfeed, но несущественно. Кажется, что есть некоторые части текста, которые имеют гораздо более высокую определенность негативного тона, что смещает среднее значение в их статье. Это может означать, что взгляды Breitbart на худшие части первых 100 дней работы Трампа не изложены так резко, в то время как Buzzfeed использует резкие слова, чтобы подчеркнуть свою негативную оценку определенного законодательства.

Послесловие

Этот анализ не обязательно доказывает снисходительность по отношению к теме с обеих сторон, поскольку анализ тональности AWS может быть отключен для более сложных предложений, не может понять сарказм и, более того, сравнение двух случайных статей на одну и ту же тему не означает предвзятости во всем информационном агентстве. . Тем не менее, дальнейший анализ может быть проведен с различными темами и более похожими статьями, чтобы потенциально вывести что-то о позиции определенных сайтов в отношении более широких идеологий.