Наука о данных обнаружена в неожиданном месте

Мое путешествие в науку о данных началось в месте, о котором я даже не ожидал. Во время учебы в бакалавриате, изучая математику, я взял в руки широко известную книгу Чарльза Дахигга Сила привычки. Меня всегда интересовала поведенческая психология, и несколько моих друзей рекомендовали мне ее. В основном это книга о том, как привычки формируются, изменяются и умело используются в бизнес-сценариях, но Дахигг лукавит и объясняет силу привычки через несколько интригующих и незабываемых историй.

В то время я учился на учителя математики, но мой интерес к академическим наукам угас, и я рассматривал другие варианты. Две истории, которые Дахигг рассказал в своей книге, включают блестящее использование науки о данных, оказавшее огромное влияние в соответствующих областях. Истории сразу же привлекли мое внимание и открыли мне глаза на силу данных. Я помню, как подумал про себя: «чувак, если бы я мог получить такую ​​работу… это было бы мечтой!»

Теперь, два года спустя, я учусь в магистратуре, изучаю науку о данных и делаю карьеру в этой области. В этом посте я хочу поделиться историями, которые впервые пробудили у меня интерес к миру данных. Они взяты из книги Дахигга¹.

Прогнозирующий фактор беременности:

Я уверен, что большинство энтузиастов данных уже слышали историю о предсказателе беременности Target. Как человек, не имеющий опыта работы с данными и мало знакомый с их многочисленными применениями, я был потрясен. Эта история сбила меня с ног!

Эндрю Поул, эксперт по данным, работающий в Target, однажды днем ​​спросил отдел маркетинга, может ли он построить модель, чтобы предсказать, кто из их клиентов беременен. Почему, спросите вы?

Почти не существует более прибыльной, ориентированной на продукт и нечувствительной к цене группы. Это не просто подгузники и салфетки. Люди с младенцами настолько устали, что покупают все необходимое - сок и туалетную бумагу, носки и журналы - везде, где они покупают бутылочки и смеси. Более того, если новый родитель начнет делать покупки в Target, он будет возвращаться сюда долгие годы.

- Чарльз Дахигг

Итак, новые родители невероятно прибыльны, но откуда Target знает, что новые родители будут возвращаться в течение многих лет, если они начнут делать покупки в Target?

Ответ на этот вопрос находится в современной теории маркетинга: покупательские привычки людей с большей вероятностью изменятся после крупного жизненного события. Что может быть важнее рождения ребенка? Да, молодые родители покупают много вещей, но доходы от их первоначальных покупок - ничто по сравнению с прибылью, которую они могут получить, используя свои изменяющиеся покупательские привычки.

Вот почему розничные магазины пойдут на все, чтобы найти новых родителей. Некоторые крупные компании, такие как Walt Disney Company, доставляют подарочные корзины молодым мамам в родильных домах. Target, однако, хотел добиться большего. Они хотели опередить эти крупные компании. Если бы они могли идентифицировать беременных женщин и привести их в свой магазин, они бы схватили их раньше, чем кто-либо другой. Отсюда и запрос Target к Полю о предсказателе беременности.

Поул с радостью принял вызов. Он начал с того, что погрузился в регистр душа ребенка Target, чтобы проанализировать покупательские привычки женщин, которые, как он знал, были беременными. Поскольку женщины предоставили Target дату родов, Поул смогла связать это со своей историей покупок, чтобы определить триместр, в котором она совершила эту покупку.

Обладая всей собранной информацией, Поул смог выделить около 25 различных продуктов, которые при использовании в математической модели могли предсказать, в каком триместре находится женщина и когда она должна родиться.

Лиз Альтер из Бруклина, тридцатипятилетней девушке, которая купила пять упаковок мочалок, бутылку стирального порошка для «чувствительной кожи», мешковатые джинсы, витамины, содержащие ДГК, и множество увлажняющих средств? У нее 96 процентов шансов забеременеть, и она, вероятно, родит в начале мая. Кейтлин Пайк, тридцать девять лет из Сан-Франциско, купившая коляску за 250 долларов и ничего больше? Скорее всего, она купила для друга детский душ. Кроме того, ее демографические данные показывают, что она развелась два года назад.

-Чарльз Дахигг

После применения ко всем женщинам в базе данных Target алгоритм определил сотни тысяч женщин, которые могли забеременеть вместе с установленными сроками. Target может отправлять им рекламу, направленную на продукты, которые они, вероятно, купят, в идеальное время, когда их покупательские привычки будут наиболее гибкими. Target увеличила бы их доход на миллионы, даже если бы только часть женщин и их семей продолжали делать покупки в Target.

Вот кикер! Примерно через год после того, как эта модель была введена в эксплуатацию, мужчина вошел в Target в Миннесоте и пожаловался, что они присылают его дочери, которая училась в средней школе, рекламу детской одежды и детских кроваток. Менеджер извинился и позвонил через несколько дней, чтобы снова извиниться. Отец смутился.

«Я разговаривал с дочерью, - сказал он. «Оказывается, в моем доме были какие-то занятия, о которых я не знал полностью». Он глубоко вздохнул. «Она должна родиться в августе. Приношу свои извинения.

- Чарльз Дахигг

Итак, алгоритм сработал - отлично!

Сейчас, конечно, можно обсуждать этику этого, но нельзя отрицать абсолютную яркость этого и силу прогнозной модели. Поразительно, что можно сделать с умным использованием данных.

Наука хит-песен:

Если вы не жили под скалой последние двадцать лет, вы слышали песню «Hey Ya!» одной из самых популярных музыкальных групп начала 2000-х OutKast. Без умного использования данных эта песня, возможно, никогда не стала бы такой большой, как была и остается.

В начале 2000-х годов музыкальная индустрия начала использовать стратегии обработки данных для прогнозирования привычек слушателей. Polyphonic HMI, компания по анализу музыки, основанная в Барселоне, Испания, создала программу под названием Hit Song Science, которая предсказывала, будет ли мелодия иметь успех. Для этого они использовали несколько функций, таких как темп, высота звука, мелодия и последовательность аккордов.

Примерно в то же время OutKast спродюсировал песню «Hey Ya!» Лейблы связывались с ди-джеями, говоря, что песня станет хитом. Когда они прогнали его через Hit Song Science, он получил один из самых высоких баллов, которые когда-либо видели. Эта песня должна была стать большой! Однако людям потребовалось время, чтобы осознать то, что уже было известно модели Hit Song Science.

Arbitron, компания, которая измеряет радиоаудиторию, разработала новую технологию, которая может показать, сколько людей слушают радиостанцию ​​в данный момент времени. Он также может показывать, когда слушатель переключает станции. Они протестировали это на WIOQ, радиостанции, входящей в топ-40 в Филадельфии, которая начала играть «Эй, да!» Ожидания, что слушателям это понравится, были высоки, но оказалось, что две трети слушателей переключают станции в течение первых 30 секунд песни. Слушатели презирали "Эй, да!" Что случилось?

На этот вопрос попытался ответить Рич Мейер. Мейер разработал формулы для описания тенденций в отношении радиослушателей и предоставил радиостанциям идеи для увеличения их аудитории. Один вопрос, на который он потратил много времени, заключается в том, почему некоторые песни заставляют очень мало людей менять станцию. Диджеи называют эти песни «липкими». Когда "Эй, я!" был выпущен, он начал экспериментировать с данными, собранными Arbitron. Он также сел и прослушал несколько песен, которые считались липкими, и нашел кое-что интересное.

Мейер понял, что липкие песни необязательно звучат похожи друг на друга, но все они звучали именно так, как он ожидал, что песня этого жанра будет звучать. Все они казались знакомыми.

Для принятия решений требуется много умственных усилий. Часто мы не выбираем, нравится нам что-то или нет. Вместо этого наш мозг следует привычке, реагируя на сигналы и награды. Реагирование на привычки требует меньше умственных усилий, что позволяет нам вкладывать больше усилий в другие, более важные дела. Все это, конечно, происходит на подсознательном уровне.

Например, когда мы слышим по радио знакомую песню (реплику), мы награждаемся способностью петь или подпевать. Это формирует рутину или привычку продолжать слушать. Нам даже не нужно больше об этом думать. Когда начинается песня, мы либо подпеваем, либо меняем станцию.

Вот почему «Эй, да!» не слушали. Это еще не было знакомо. Радиослушатели не хотели сознательно принимать решение, нравится им это или нет, поэтому они отреагировали на свои привычки, сменив станцию.

Проблема заключалась в том, что компьютерные программы, такие как Hit Song Science, довольно хорошо предсказывали привычки людей. Но иногда эти алгоритмы обнаруживали привычки, которые на самом деле еще не сформировались… "Здарова!" нужно было стать частью установившейся привычки слушать, чтобы стать хитом.

- Чарльз Дахигг

Радио-ди-джеям нужно было написать «Эй, да!» чувствовать себя знакомо, и для этого они использовали то, что сейчас называется теорией плейлистов из учебников. Они зажали «Эй, да!» между типами песен, которые Рич Мейер считал липкими. Вскоре после того, как WIOQ приняла эту стратегию, процент слушателей, сменивших станцию, упал с 26,6 до 13,7 процента. Два месяца спустя он упал до 5,7 процента. Другие станции, использовавшие ту же технику, испытали аналогичные тенденции.

И когда слушатели услышали «Эй, я!» снова и снова это становилось привычным. Как только песня стала популярной, WIOQ начал играть «Hey Ya!» целых пятнадцать раз в сутки. Привычки людей к слушанию изменились: они ожидают - даже жаждут - "Эй, да!" "Эй, я!" появилась привычка. Песня получила приз, было продано более 5,5 миллионов альбомов и принесло радиостанциям миллионы долларов.

-Чарльз Дахигг

В конце концов, реальность настигла то, что уже знала компьютерная программа: «Эй, да!» собирался быть большим! В этом сила данных.

[1]: Дахигг, Чарльз. Сила привычки: почему мы делаем то, что делаем в жизни и в бизнесе. Нью-Йорк: Random House, 2012. Печать.