Большие данные говорят, что все лгут

Почему большие данные так важны и почему вам следует заботиться о них

Ваша интуиция лжет вам

На протяжении всей нашей повседневной жизни, вдали от высоких технологий, подавляющее большинство людей принимает решения и дает советы, основываясь на своей интуиции. За свою жизнь они усвоили огромное количество данных, которые надежно хранятся в их мозгу, что позволяет им делать выводы о проблемах.

Однако это создает несколько проблем:

Все ваши наблюдения (точки данных) сделаны с вашей точки зрения. Это означает, что вы увидите ограниченное изображение.
Ваш мозг со временем меняет воспоминания.

Взять, к примеру, баскетбол. Возможно, вы слышали, что когда вы растете в бедности, вы становитесь отличной звездой НБА. Есть много историй успеха, подтверждающих, что увидишь Леброна Джеймса, так что это должно быть правдой. Но истории, о которых вы слышите, - это только истории успеха (предвзятость выживания); остальное вы не слышите.

«Следующий Фрейд будет специалистом по анализу данных. Следующий Маркс будет специалистом по анализу данных. Следующий Солк вполне мог бы стать специалистом по анализу данных ».

Вот почему большие данные очень полезны и помогают разобраться в интересных вопросах. Большие данные могут собирать данные со всей страны и видеть, повлияет ли взросление на бедняков или средний класс на вашу мечту о НБА. Оказывается, да. У вас гораздо больше шансов попасть в НБА, если вы НЕ растете в бедности.

О чем этот блог?

Если вы не прятались под камнем в течение последнего десятилетия, вы наверняка слышали о больших данных. Эта тема стала очень популярной. Это настолько распространено, что книга о больших данных попала в список бестселлеров Нью-Йорка!

Речь идет о книге Сета Стивенса-Давидовица под названием «Все лгут: Что Интернет может рассказать нам о том, кто мы есть на самом деле».

Все лгут
БЕСТСЕЛЛЕР НЬЮ-ЙОРК ТАЙМС. ЭКОНОМИСТИЧЕСКАЯ КНИГА ГОДА books.google.co.uk

Что ж, я прочитал книгу, всего около 300 страниц, и она мне понравилась. Чтобы избавить вас от необходимости читать ее, я попытался изложить суть книги в этом блоге. Надеюсь, вам будет интересно.

Обзор книги

В целом книга рисует картину того, что такое большие данные и как их можно использовать для выявления некоторых ранее неизвестных истин. Он показывает, насколько полезным он может быть, как он может быть неправильно истолкован намеренно или неосознанно, если вы не уделите ему должного внимания.

На протяжении всей книги Сет приводит примеры больших данных и истину, которую они раскрывают, а также интересующие вас анекдоты, наподобие «Freakonomics» Стивена Дабнера и Стивена Левитта (еще один бестселлер).

«Наука о данных берет естественный и интуитивно понятный человеческий процесс - выявляет закономерности и разбирается в них - и вводит его с помощью стероидов»

Более конкретно, книга исследует множество наборов данных, включая данные из Google Trends и PornHub. При этом он привлекает внимание к таким темам, как политика (выборы, выступления и последствия расизма и т. Д.), Охота на финансовое положение или скачки, а также человеческая сексуальность.

Не зацикливаясь на деталях и не портя книгу, если вы решите ее прочитать, вот основные выводы!

Размер имеет меньшее значение, чем наличие правильных данных

Революция больших данных не сводится к сбору все большего и большего количества данных. Речь идет о сборе правильных данных.

С начала тысячелетия мы наблюдаем резкое увеличение объемов сбора и доступности данных. Неважно, какие данные вам нужны; он скорее всего существует!

Предполагается, что в течение следующих пяти лет мы будем генерировать около 500 эксабайт данных каждый день! Чтобы представить это в масштабе, 1 эксабайт равен 1 000 000 терабайт.

Люди проводят всевозможные сумасшедшие эксперименты, просматривая огромные объемы данных, чтобы найти что-то, что обеспечит им преимущество в их отрасли или сфере деятельности.

Примеры этого включают:

Хедж-фонды используют данные Twitter и Google, чтобы определить, какие акции пойдут вверх или вниз. В некоторых случаях они даже контролировали парковки с помощью низкоорбитальных спутников. Правильно - они отправились в космос, чтобы сфотографировать парковки, чтобы получить преимущество!
Исследователи ездят по стране, выполняя медицинские процедуры на скаковых лошадях, чтобы выяснить, что делает пост. Таким образом, они могут предсказать и определить следующего крупного победителя. При этом они оба могут знать, как поставить свои деньги, но также выступать в качестве скаутов для людей, владеющих этими лошадьми и участвующих в скачках.

Возможности действительно безграничны!

Все лгут, кроме Google

Снова и снова было замечено, что люди склонны лгать, когда думают, что за ними наблюдают. По словам Сета, ложь широко распространена.

«Все данные! И со всеми этими новыми данными мы, наконец, можем распознать ложь людей ».

Люди лгут своим друзьям, в соцсетях, в опросах. На каком-то уровне они также могут лгать себе. Только когда вы увеличиваете масштаб действий людей и сосредотачиваетесь на их реальных вопросах, когда они думают, что никто не наблюдает (см. Результаты поиска в Google), вы можете начать видеть правду из лжи.

Netflix усвоил аналогичный урок на раннем этапе своего жизненного цикла: не верьте тому, что вам говорят; доверять тому, что они делают.

Используя данные общественных опросов, можно быстро составить картину того, насколько безопасным сексом занимаются американцы. Однако, сравнивая эти данные с продажами презервативов, кажется, что существует значительный разрыв. Если взглянуть на данные Google Trends в другом измерении этого поиска, можно обнаружить большое количество запросов на «бесполые браки / отношения».

Ту же логику можно применить и при рассмотрении выборов Трампа. В то время как Америка праздновала успех пострасовой эпохи, Трамп был избран на пост президента. И снова анализ Сета в Google Trends проливает свет на некоторые очень тревожные результаты.

Большие данные, малые масштабы

Всегда были доступны большие наборы данных, которые собирали исследователи и учреждения. В больших наборах данных нет ничего нового. Идея больших данных заключается в глубине и широте этих данных. Вы можете собирать данные беспрецедентного уровня и детализации. Люди действительно передадут его бесплатно!

«Большие данные позволяют нам значительно увеличивать небольшие сегменты набора данных, чтобы получить новое представление о том, кто мы есть».

Благодаря доступным новым уровням данных специалисты по данным могут увеличивать и уменьшать масштаб с точки зрения микро- и макроуровня, чтобы понимать все больше и больше. Они могут начать с анализа на уровне страны, а затем перейти к штатам, городам, поселкам, деревням и даже районам.

Как компании используют большие данные для вас

Учитывая, что все лгут, нужно задаться вопросом, в чем ценность опросов. Фирмы всегда использовали фокус-группы, чтобы определить, что людям нравится или не нравится в продукте, но они более избирательно подходили к использованию A / B-тестирования, поскольку оно, как правило, было более дорогостоящим.

A / B-тестирование - это процесс применения рандомизированных экспериментов для понимания влияния изменения переменной. Как вы понимаете, с бесконечным количеством переменных и значений переменных фирмам потребуется выделить значительный объем ресурсов на этот процесс.

Однако в эпоху Интернета и программного обеспечения игра полностью меняется. Фирмы могут продвигать различный контент, лишь незначительно измененный между разными группами населения, и наблюдать за тем, как они с ним взаимодействуют. Это может включать цвет текста, формулировку, шрифт, расположение; это могло быть что угодно.

«В 2011 году инженеры Google провели семь тысяч A / B-тестов. И это число только растет ».

Этот процесс используют политики, компании-разработчики программного обеспечения и почти все, кто стремится получить преимущество перед вами. Их не волнует, почему вашему подсознанию нравится эта фраза или почему ваш мозг загорается и взаимодействует с ней, когда вы ее видите - только то, что это делаете вы.

«В 2009 году один разочарованный дизайнер уволился после того, как Google прошел через сорок один слегка отличающийся оттенок синего в ходе A / B-тестирования. Но позиция этого дизайнера в пользу искусства над навязчивыми исследованиями рынка мало что помогла остановить распространение этой методологии ».

Лучше еще раз проверить эти результаты

Как и во всем, при работе с большими данными и статистикой следует помнить о нескольких подводных камнях. Есть несколько распространенных ошибок, которым вы можете избежать, поэтому стоит дважды проверить свои результаты.

Само собой разумеется, что вам, несомненно, следует перепроверить заявления других людей о конкретных результатах.

Проклятие размерности

Повторите эксперимент со случайными величинами несколько раз, и вы обязательно обнаружите некоторую корреляцию. Однако то, что вы нашли отношения, не означает, что они есть.

Другими словами, с более высоким уровнем измерений данных вам потребуется еще более значительное количество наблюдений для поддержки вашего анализа. Верно; Ваши большие данные могут быть недостаточно большими!

Корреляция не означает причинно-следственную связь

Тот факт, что вы смогли найти некоторую взаимосвязь между двумя переменными в своем наборе данных, не означает, что одна вызывает другую. Возьмем, к примеру, то, что ваше исследование привело вас к тому факту, что «все люди, которые пьют воду, умирают». Это фактически правильное утверждение, но если бы вы сказали, что смерть наступила в результате употребления воды, вы бы ошиблись.

Это явление известно как «обратная причинно-следственная связь», и важно отметить, что отсутствие корреляции предполагает наличие причинной связи.

Этика больших данных

Большие данные настолько мощны, что их можно применять ко всем аспектам жизни. Это поднимает вопрос о морали использования такой практики.

Возьмем, к примеру, что конкретное действие является статистически значимым предиктором того, что вы будете делать дальше. Следует ли принимать меры корпорациями или правительством, предвидя это? Как насчет процента людей, которые будут выполнять первое действие, но не предсказанное второе?

Или подумайте о последствиях ответов на определенные типы вопросов, которые потенциально следует оставить без ответа.

Заключение

В целом книга показалась мне весьма интересной. Из этой книги можно почерпнуть много хороших моментов и способ мышления. В заключение автор выражает надежду, что эта книга находится на одном уровне с Freakonomics или превосходит ее. Я бы сказал, что это была хорошая попытка, но не совсем на том же уровне.

Если вам понравился обзор этой книги, возможно, вам понравится и мой обзор «Почему мы спим»:

«5 важных фактов о сне
Что я узнал, прочитав" Почему мы спим medium.com "