Задний план

В Glass мы разработали новую систему для получения крупномасштабных социальных и экономических данных из Интернета и других источников. Наш ИИ может понимать письменный язык.

В сегодняшнем посте мы познакомим вас с формальным экспериментом в области науки о данных, который мы недавно завершили, в ходе которого мы рассмотрели насущную и удивительно заниженную проблему реального мира — гендерное неравенство на рабочем месте в Великобритании.

Мы объясним, почему мы взяли на себя задачу прочитать весь домен .UK, чтобы сделать это, и некоторые проблемы, с которыми мы столкнулись на этом пути. Насколько нам известно, это первый систематический анализ такого масштаба, и наши результаты вызывают беспокойство у руководителей бизнеса (как крупного, так и малого) по всей Великобритании.

Чем наша работа отличается

Интернет большой. И он продолжает увеличиваться. Таким образом, точно так же, как астроном может быть заинтересован в формировании звездных систем, мы в Glass заинтересованы в понимании крупномасштабной активности, которая проявляется в следах активности, наблюдаемых во вселенной постоянно расширяющегося публикуемого контента. Это включает в себя возможность отслеживать информацию на ходу по мере ее изменения формы: например, динамику новостной темы по мере ее развития во времени. Как он туда попал? Что будет дальше? Кто о чем говорит, где?

Предыдущие связанные исследования, созданные для экономистов, политиков или бизнес-аналитиков, как правило, недооценивали или даже игнорировали Интернет в качестве источника данных, как правило, подробно рассматривая только ограниченное количество секторов экономики, изучая небольшой географический сегмент. или проведение ручных (и дорогостоящих) опросов. Хуже того, учитывая небольшой набор данных, у специалистов по данным нет другого выбора, кроме как экстраполировать и полагаться на статистику небольшой выборки.

Это нормально… если вам нужна большая размытая картинка. Но что, если вам нужно больше пикселей?

Большее разрешение предлагает гораздо более точное представление данных: именно поэтому нам понадобилось прочитать более 200 миллионов веб-страниц только для этой работы. Таким образом, Glass — это новый тип объектива, и мы надеемся, что он действительно изменит ситуацию.

Наконец, нам нужно разобраться в том, что мы читаем в Интернете. Так называемое «понимание естественного языка» (которое мы, люди, используем, в отличие от того, что делают компьютеры) — сложная проблема. Например, люди не просто потребляют или создают поток однозначных символов: слова и скользкие, и локальные: мы понимаем, что на самом деле означают слова, из контекста, из слов вокруг слов. Даже отсутствие некоторых слов может определять совершенно иной контекст, а значит, и иной смысл. Итак, наша задача состоит не только в том, чтобы найти набор ключевых слов, но и в том, чтобы понять, как на самом деле работает язык.

Время для эксперимента

В 2018 году, будучи женщиной, вы можете (согласно официальной статистике) ожидать более низкую заработную плату, худшие перспективы продвижения по службе и большую вероятность того, что вы будете работать в одной отрасли, а не в другой. Но как именно это выглядит и как проявляется?

Что новый искусственный интеллект (ИИ), направленный на веб-сайты, может рассказать нам о проблеме, которую не могут сказать существующие методы? Насколько это будет точно? И может ли он предложить какое-то новое понимание или раскрыть больше деталей по этому важному вопросу?

Работа

Мы обучили наш ИИ всему домену .UK и узнали пол 2,3 млн человек и должности, которые они занимали в 150 000 организаций в 108 отраслях промышленности. Мы отфильтровали удерживающие страницы, страницы с низким содержанием, сайты социальных сетей, розничных продавцов, блоги и сайты, ориентированные на услуги, такие как поисковые системы, потому что мы хотели знать, как британские предприятия и организации изображают себя. Помните, что эти организации не имеют никаких юридических обязательств по представлению своих сотрудников в балансе и не ожидают, что их привлекут к ответственности за их выбор: в этом смысле сеть — это бессознательный снимок организаций в ней, пытающихся выглядеть как можно лучше.

Некоторые секторы экономики «темные», практически не представлены в сети — например, табачная промышленность. Некоторые отрасли создают непропорционально много шума — например, СМИ и маркетинг. Поэтому неизбежно возникают перекосы в данных, которые необходимо учитывать.

Но один замечательный результат заключается в том, что наши цифры точно совпадают с данными ONS (Управления национальной статистики) на верхнем уровне, а внизу, в более высоком разрешении, мы видим полную картину: массовое расхождение между полами в определенных ролях и секторах промышленности. По сути, мы видим гендерную сегрегацию на работе, и только 5% из сотен с лишним секторов, которые мы обследовали, демонстрируют сбалансированную рабочую силу.

Вот снимок:

Почему это занижено?

Можно подумать, что с таким явным и существующим неравенством между секторами СМИ будут прыгать вверх и вниз, чтобы задокументировать это. Вопреки интуиции оказывается, что и медиабизнес не является поборником равноправия.

Узнать больше

Это был лишь краткий пример нашего исследования. Мы считаем, что это уникальное исследование открывает двери для большего количества исследований на основе ИИ с использованием Интернета в качестве живого зеркала общества и указывает на новые способы мониторинга этих сложных проблем, а также отслеживания политических инициатив, направленных на их решение.

Вы можете получить основные моменты исследования в удобной форме здесь, или вы можете прочитать полную статью, опубликованную в журнале Heliyon, здесь. Мы надеемся, что вы прочитаете и поделитесь.