Чтобы ответить на этот вопрос, нам пришлось разработать тщательно разработанный план, который пытается свести к минимуму предвзятость, обнаруженную в формулировке запроса.

Почему мы считаем этот вопрос важным?

Мы живем в мире, где все находится в одном клике. Мы склонны проводить годы нашей жизни в онлайн-среде, учиться, быть в курсе новостей, событий со всего мира. Откуда мы знаем, что отображаемые данные не были изменены вместе с нашим видением темы? Откуда мы знаем, что у Google нет другой системы ранжирования, кроме PageRank?

Краткое описание того, как работает алгоритм
Я начал со сбора 1000 самых популярных поисковых запросов в Google. Если вам интересны вопросы, вы должны узнать, что «Как решить гипотезу Римана» не находится в нашем топе. Вот краткий обзор 6 наиболее часто задаваемых вопросов в Google:

Я попробовал несколько библиотек, чтобы получить наиболее точный анализ настроений, и мы остановились на анализаторе интенсивности настроений nltk. Эта библиотека возвращает оценки полярности (нейтральное, положительное или отрицательное предложение), и мы могли видеть на изображении ниже, что большинство вопросов нейтральны, как и должно быть.

Я использовал сертифицированный Google SERP API, который давал бы страницам краткое описание, соответствующее запросу. Я отфильтровал только английские страницы и взял первые 10 страниц с примерно 10 результатами на страницу.

Затем я пропустил заголовок и описание каждого веб-сайта через один и тот же анализатор интенсивности настроений, чтобы увидеть, влияет ли Google положительно или отрицательно на результаты, поскольку веб-сайтов с нейтральным содержанием быть не может.

Результаты:

Выводы

1. Все нейтральные запросы (0 баллов) имеют тенденцию приводить к положительным результатам поиска Google (чем выше балл, тем более положительными являются заголовок/описание веб-сайта или статьи). ).
2. Отрицательные запросы дают положительные результаты на первых страницах, а затем следуют отрицательные результаты (за некоторыми исключениями). Пытается ли Google скрыть результаты, которые нам нужно увидеть, но показать нам те, которые мы хотим видеть? Данных слишком мало, чтобы ответить на этот вопрос.
3. Положительный запрос имеет самое высокое среднее значение тональности на страницу! Наряду с наиболее негативным запросом, который имеет самую низкую среднюю тональность страницы, мы видим, что на результаты Google влияет тональность запроса!