Действительно ли заслуживают доверия "надежные" большие данные и где их найти?

Внедрение аналитики больших данных продолжает набирать обороты во всех отраслях, но насколько точны ваши данные? Независимо от источника, совершенно необходимо сомневаться в его точности. «Это заслуживает доверия? Это завершено? На него повлияли другие факторы? " Это лишь некоторые из вопросов, которые должен задать любой бизнес, доверяя принятие любых решений на основе больших данных и машинного обучения.

Возьмем, к примеру, Google. Запущенный в 1998 году, в то время, когда поисковые системы в Интернете были многочисленны, но не могли ранжировать страницы по чему-либо, кроме появления на странице поискового запроса, он мгновенно стал хитом. На рубеже тысячелетий это уже было выбором по умолчанию для всех ИТ-специалистов, да и для многих других тоже.

Google доказал, что у него есть технические возможности и инновации, чтобы не просто создать полезную поисковую систему, но и указать путь во многих аспектах использования наших технологий. Неудивительно, что они были достаточно умны, чтобы отслеживать данные своих результатов поиска. Войдите в Google Trends.

Мы ожидаем, что эти данные заслуживают доверия, учитывая репутацию компании в области технологий, и это действительно так.

Взглянув для начала на некоторые анекдотические данные, мы можем использовать их, чтобы увидеть недавнюю историю того, когда Франция играла каждый из своих футбольных / футбольных матчей чемпионата мира по футболу, на основе красных всплесков в результатах поиска ниже.

Вы можете попробовать сами в Google Trends.

При наведении указателя мыши на каждый из красных шипов отображаются даты, соответствующие датам футбольных матчей во Франции. Синяя линия поднимается в день начала Тур де Франс. Если бы мы хотели составить отчет о популярности этих двух спортивных мероприятий на основе интернет-трафика, эта статистика Google Trends может быть полезна. Данные за этот месяц указывают на то, что источник заслуживает доверия, но давайте копнем глубже.

Если продолжить поиск с 2012 года, линии станут еще четче. Два крупнейших футбольных турнира (чемпионат мира и чемпионат Европы УЕФА) проводятся каждые два года, на что указывают красные шипы. Тур де Франс проводится каждый год, о чем свидетельствуют синие шипы. Данные по-прежнему выглядят хорошо.

Если заглянуть еще дальше, кое-что изменится. Красные линии для французской футбольной команды следуют ожидаемой закономерности и со временем медленно растут в соответствии с возросшей онлайн-активностью и использованием поисковых систем. Это победа! По крайней мере, пока.

Однако линия Tour de France показывает всплески, которые намного выше в 2004 и 2005 годах. Данные выглядят неточными, но наши анекдоты выше показывают, что данные хорошие. Так что здесь происходит?

Был ли в те годы резкий рост людей, ищущих участие в Tour de France? Был ли скандал? Знаменитость принимает участие? Годовщина мероприятия?

Чтобы проверить данные, мы провели собственное исследование. Google запустил бета-версию Новостей Google в 2002 году, и дальнейшее расследование показало, что она была публично запущена в 2006 году. После 2006 года поисковые запросы были разделены на два типа - обычные поисковые запросы Google и поисковые запросы новостей, что эффективно уменьшало всплески в синей строке выше.

Google Trends предоставляет варианты для типичных результатов веб-поиска, а также новостей, изображений, покупок и YouTube, но не обеспечивает комбинированного просмотра. А если перейти к новостным результатам, то отображаются данные только за 2008 год, что тоже явно неточно.

Так какое же решение? Их много, и каждая проблема с большими данными имеет свои особенности. Для этой ситуации мы могли бы взять данные только за последние девять лет, которые показывают ожидаемые всплески. Мы могли бы также объединить результаты веб-поиска с другими типами результатов поиска. Или мы могли бы вообще поискать другой источник данных.

Неожиданные влияния

Кроме того, мы должны мыслить шире и учитывать контекст. Вернемся к футболу. Как недавно сказал Дональд Трамп: «В Соединенных Штатах мы называем это футболом». Возможно, это было самое резкое из его замечаний! Различал ли Google футбол и футбол в первые дни сбора данных? Включен ли американский футбол в результаты поиска европейского футбола? И включил ли он слово «футбол» в какие-либо из этих годовых результатов?

Это показывает, как самые чистые данные могут по-прежнему приводить к неожиданным результатам из-за простого культурного различия. Поэтому контекст чрезвычайно важен - и его часто упускают из виду. Поэтому крайне важно подвергнуть сомнению свои данные и тщательно их проверить, прежде чем принимать на их основе какие-либо решения. После этого машинное обучение может дать нужные вам точные результаты.

Если вы ищете источники данных, то их множество бесплатных. Мы рекомендуем вам начать с Актуального списка текущих бесплатных источников больших данных Бернарда Марра.