На прошлой неделе я написал о Что между тобой и тобой-хочу-быть. Подытожим: 1) Сосредоточенность на чем-то одном; 2) реалистичный план; 3) Де-приоритизация. На этой неделе я хочу рассказать о том, как мы с Джейсоном используем эти методы.

Мы оба специалисты по обработке и анализу данных, работающие полный рабочий день. В свободное время мы любим делать проекты вместе. Например, мы разработали 30-дневный межличностный вызов: набор из 30 открыток, которые можно отправить. Цель челленджа — помочь людям укрепить важные для них отношения.

В последнее время мы хотим использовать больше наших навыков в области науки о данных в нашем побочном проекте. В этом блоге я хочу поделиться одним микропроектом, который мы сделали в эти выходные: три наблюдения из Google Trends: машинное обучение против искусственного интеллекта; Python против R; Импульс айфона.

Машинное обучение против искусственного интеллекта

Наблюдения:

  1. Искусственный интеллект (ИИ) — не новая концепция. В 2004 году было очень жарко.
  2. Машинное обучение (ML) превзошло ИИ в середине 2013 года и с тех пор искало больше, чем ИИ.
  3. В январе 2018 года произошел всплеск ИИ. Возможно, это связано с большими новостями в технологической индустрии того времени.

Одно из возможных объяснений: ИИ фигурирует во многих книгах по научной фантастике и на самом деле не является новой концепцией. На самом деле, многие функции, которые ИИ может делать сегодня, были доступны 20 лет назад, просто намного дороже. Именно снижение стоимости определяет, где можно применять ИИ.

Эта схема мне особенно интересна. Штаты, в которых машинное обучение ищут чаще, чем ИИ, — это штаты, в которых больше технологических компаний. Три штата с самым высоким соотношением машинного обучения и искусственного интеллекта — это Вашингтон, Массачусетс и Калифорния.

Мое личное мнение по этому поводу таково: люди, которые не так хорошо знакомы с драйвером все более и более умного программного и аппаратного обеспечения в нашей жизни, склонны полагать, что это ИИ. Для людей, которые создают драйверы этой интеллектуальности, они понимают, что в основном это обусловлено машинным обучением.

Мой друг Data Scientist однажды сказал мне, что люди часто недооценивают и переоценивают то, что машина может делать сегодня, в одно и то же время. «Прошлой ночью я болтал об Акройоге со своим другом, и вдруг сегодня утром я получил рекламу в этом приложении. Клянусь, я никогда не искал его в Интернете. Это приложение должно прослушивать наши разговоры!» что является завышенной оценкой.

Люди предвзяты по своей природе. Вот почему волшебство работает — у людей есть определенные ожидания, что мяч должен быть в этой чашке, поэтому, когда его нет, это волшебство. То же самое для рекламного сценария выше: вы, вероятно, попадаете в целевую группу клиентов AcroYoga. Вы, вероятно, уже получали рекламу AcroYoga. Вы просто не помните. Потому что в то время вы не были знакомы с этой фразой, а люди склонны игнорировать незнакомую информацию.

Разговор о предвзятости можно продолжать бесконечно. Я поделюсь еще одним примером здесь. Вы можете попробовать со своими друзьями: посмотрите на фотографии полуазиатов и полукавказцев, так много раз Джейсон (европеец) думал, что этот человек полностью белый, но я считаю, что этот человек выглядит очень азиатским. Это осознание помогает нам осознать свою предвзятость.

Python против R

Python и R — два самых популярных языка для обработки данных. Из этой диаграммы выше мы имеем следующие наблюдения:

  1. С 2004 по 2012 год популярность Python и R была стабильной. Python искали примерно в два раза чаще, чем R.
  2. С 2012 года популярность Python резко возросла. Пока R остается стабильным.
  3. В сентябре 2019 года индекс интереса Python-to-R составляет 100:29. Другими словами, Python сегодня ищут в три раза чаще, чем R.

Одно из возможных объяснений: Python — это язык программирования, который широко используется за пределами области науки о данных, например, в инженерах-программистах. В то время как R изначально был математическим языком. Помимо науки о данных в промышленности, он используется в образовательных учреждениях в качестве инструмента исследования. Спрос со стороны образовательных учреждений относительно стабилен.

Пульс iPhone

Как и следовало ожидать, количество поисковых запросов iPhone в Google сильно коррелирует с запуском новых моделей.

Прелесть науки о данных в том, что она подтвердит вам то, что вы уже знаете, и покажет вам то, чего вы не знаете.

Ниже приводится новая информация, которую я узнал из этих данных:

  1. Популярность iPhone увеличилась более чем в 10 раз. Поисковый индекс iPhone в январе 2007 года составлял 9. В сентябре 2012 года он вырос до 100.
  2. Интерес к iPhone XR составляет 57% от интереса к iPhone 5. Пик интереса к iPhone пришелся на сентябрь 2012 года, когда был выпущен iPhone 5.
  3. За последние 5 лет жизни Стива Джобса (2007–2011 годы) iPhone набрал невероятную популярность среди всех. Пик в месяце, когда он скончался (октябрь 2011 г.), был последним месяцем, когда на iPhone наблюдается постоянное наращивание поискового индекса.
  4. После 2011 года интерес к iPhone стал гораздо более сезонным, чем до 2011 года.Возможно, одно из объяснений заключается в том, что продукт стал более зрелым — люди не ищут его так часто, пока не появится новая версия. Другое возможное объяснение состоит в том, что за пять лет ежегодного выпуска у публики появилась привычка ожидать новый выпуск каждый сентябрь.

Резюме

Что я узнал из этого микропроекта:

  • Мы живем в эпоху изобилия данных. Хорошо вооружиться привычкой и способностью читать данные.
  • Прелесть науки о данных в том, что она подтверждает то, что вы знаете, и показывает то, чего вы не знали.
  • В большинстве случаев данные говорят о том, «что» в истории. Чтобы ответить «почему», нам нужно знание контекста.

Спасибо за чтение! Я надеюсь, что этот блог заинтересовал вас, чтобы попытаться исследовать мир данных.

Если этот блог вас заинтересовал, вот Таблица содержания остальных блогов в моем конкурсе #52WeeksOfWriting.

Первоначально опубликовано на http://doctorgloria.wordpress.com 6 октября 2019 г.