Позволь мне объяснить. Я читал эту книгу о «Больших данных» и Интернете, которую случайно взял в удобном магазине в аэропорту Остина.

Книга называлась "Все лгут", автор Сет Стивенс-Давидовиц, и в ней затрагивались несколько действительно интересных тем, в основном связанных с наукой о данных, Интернетом и психология человека.

В одной из первых глав книги автор приводит поучительные примеры того, как люди принимают повседневные решения, основываясь на своем предыдущем опыте. Один из таких примеров касается бабушки автора.

Он рассказывает о том, как его бабушка помогла ему выбрать подходящего человека для свидания. Каждый раз, когда он приводил кого-то домой на ужин или на сборища, большинство членов семьи давали ему неверный совет, тогда как его бабушка точно предсказывала, будет ли этот человек совместим с ним или нет (бинарная классификация).

Эта интуиция была полностью основана на ее знакомстве с привычками, предпочтениями, отношением и опытом автора с предыдущими свиданиями (данные обучения).

Хотя это не было количественным решением, основанным на реальных данных, оно было качественным, основанным на опыте и в значительной степени основанным на реальных концепциях науки о данных. Таким образом, этот пример вдохновил меня сопоставить распространенные примеры из реальной жизни с реальными методами обработки данных, чтобы, возможно, помочь людям понять эти концепции более интуитивно.

Вот так!

Создание разных списков воспроизведения в Spotify — тематическое моделирование или кластеризация

Этот первый действительно находит отклик у меня лично, поскольку я тщательно отношу песни, которые мне нравятся, к значимым категориям. Затем я мог просто воспроизводить песни из определенных списков воспроизведения в зависимости от моего настроения, не прилагая особых усилий для выбора каждой песни.

По сути, я занимаюсь моделированием темы или кластеризацией. Я слушаю песни, выбирая разные атрибуты (особенности) и на основе этих атрибутов собираю песни с похожими атрибутами в одну группу. В итоге у нас получается несколько групп (тем/кластеров/плейлистов) с разными характеристиками.

Перемешивание кастрюли перед дегустацией еды — случайная выборка

Повара обычно пробуют еду, которую они готовят, чтобы убедиться, что все на вкус соответствует ожиданиям. Однако нельзя просто взять что-то, что находится в непосредственной близости. Пищу необходимо смешивать или перемешивать, чтобы различные ингредиенты правильно смешались.

Это создает более равномерное распределение ингредиентов повсюду, что приводит к лучшему обобщению блюда в целом во время дегустации.

Случайная выборка работает так же. Чтобы предотвратить появление предубеждений, таких как предвзятость удобства, важно убедиться, что выборка делается случайным образом, что обеспечивает лучшее обобщение генеральной совокупности (продуктов питания).

Сбор свежих авокадо в продуктовом магазине — Обнаружение аномалий

Большинству любителей авокадо (например, мне) необходимо физически ощутить плод в продуктовом магазине, чтобы оценить его свежесть. Он не может быть слишком твердым или слишком спелым, он должен быть правильным. Эта идеальная свежесть, по сути, представляет ожидаемую ценность авокадо.

Если авокадо мягче или тверже, чем ожидалось, это будет считаться выбросом или аномалией. Следовательно, мы отклоняем его и переходим к следующему.

Решение о том, идти ли в офис физически или работать удаленно — Бинарная классификация

Опять же, этот пример довольно прост для понимания. Если вы похожи на меня и у вас есть возможность физически ходить в офис во время карантина, это ежедневная дилемма, чтобы выяснить, можете ли вы работать удаленно или вам нужно будет приложить усилия, чтобы подготовиться к отправке в офис.

Здесь нужно будет рассмотреть различные аспекты работы в этот конкретный день, такие как:

  • Нужно ли мне работать с оборудованием или инструментами, которые есть только в офисе?
  • Я планирую пообедать на улице?
  • Нужно ли отправлять товар на работе?
  • Должен ли я быть дома, чтобы получить важную посылку?

Приведенные выше примеры служат в качестве характеристик, и мы используем наш опыт предыдущих рабочих дней во время карантина в качестве обучающих данных. Затем мы делаем предсказание каждый день.

Готовим коктейли для друзей — A/B тестирование

Допустим, вы на вечеринке и вам поручили работать барменом. Вы решили попробовать приготовить «Московских мулов» для всех, но не совсем уверены, какие ингредиенты и какие шаги нужно предпринять. Вы быстро ищете рецепт и создаете партию мулов.

Однако вы также столкнулись со вторым рецептом, в котором предлагалось добавить больше лайма, чем в первом. Итак, из любопытства вы пошли вперед и создали еще одну партию с новым рецептом.

Затем вы раздавали две порции разным людям и пытались оценить, какой будет реакция. Получается, что из 25 человек, присутствующих на вечеринке, вторая партия нравится 15, а первая – только 10. Из этих данных вам становится ясно, что третья партия должна быть с лишней известью. Ключевым моментом здесь было изменение только одной переменной и наблюдение за разницей в результатах. Это основа для A/B-тестирования.

В реальном количественном анализе для каждой версии решения необходимо собирать большие выборки данных, а также использовать методы статистического вывода, такие как проверка гипотез, чтобы выяснить, существует ли разница в результатах между двумя вариантами. партий является статистически значимым.

Отметка друзей на фотографиях вручную — Классификация изображений

На самом деле это не лучший пример, поскольку в большинстве приложений, использующих изображения, эта технология уже реализована в настоящее время для автоматической маркировки людей на основе черт лица. Для этого приложения широко используются методы глубокого обучения, такие как классификация изображений с использованием алгоритма Сверточная нейронная сеть (CNN).

Однако, если мы рассмотрим крайние случаи, когда алгоритм не может распознать определенных людей, вы все равно можете пометить их вручную, если вы их узнали. Ваша интуиция для правильной пометки людей основана на ваших обширных знаниях тысяч изображений лиц людей (данные для обучения), хранящихся в вашем мозгу.

Чтение комментариев к сообщению в Твиттере — Анализ настроений

Часто после публикации чего-либо в Твиттере или любой другой социальной сети, если на то пошло, интересно посмотреть, что люди могли прокомментировать. Обнадеживающий комментарий от друга, семьи или даже совершенно случайного человека поднимает вам настроение, в то время как негативный комментарий может заставить вас задуматься о том, что в посте могло их расстроить.

В любом случае, мы можем быстро понять из комментариев, какие эмоции они изображают, например радость, гнев, несогласие, веселье, любопытство и т. д.

Анализ настроений, который является одним из наиболее широко используемых приложений обработки естественного языка (NLP), делает то же самое, поглощая огромное количество текста, как правило, из онлайн-источников, таких как Twitter, Instagram, Facebook, обзоры Amazon, чаты Yahoo Finance и т. д.

Предложение сериалов или фильмов друзьям, родственникам и коллегам — Система рекомендаций

Это, возможно, один из самых распространенных примеров из всех перечисленных в этом посте. Люди постоянно говорят о фильмах и шоу, особенно в связи с тем, что потоковые сервисы, такие как Netflix, Hulu, Amazon Prime, HBO и Disney, становятся все более популярными.

Кроме того, друзья, как правило, получают регулярные рекомендации друг от друга. То же самое касается членов семьи и даже коллег по работе.

Сегодня алгоритм машинного обучения под названием Система рекомендаций широко используется для того, чтобы сделать то же самое в автоматическом режиме для широкого спектра продуктов и услуг. Он развернут на потоковых сервисах, платформах электронной коммерции, платформах социальных сетей и некоторых других областях.

Метод совместной фильтрации механизмов рекомендаций использует одноранговую информацию от группы похожих людей, таких как друзья, члены семьи, коллеги и т. д., чтобы предлагать продукты, фильмы, услуги пользователям. Фильтрация на основе содержания, с другой стороны, учитывает поведение пользователей, например лайки, покупки, просмотры страниц, клики, чтобы рекомендовать похожий контент.

Проверка идентификаторов людей, заказывающих напитки — регрессия

Это пример того, как бармен проверяет удостоверения личности людей, чтобы убедиться, что они достигли возраста употребления алкоголя. Во время этого процесса, если клиент явно старше 21 года, хост может даже не запрашивать удостоверение личности. Однако в тех случаях, когда клиенты кажутся относительно молодыми, может потребоваться проверка.

Независимо от результата, в этой ситуации организатор интуитивно делает оценку возраста клиента по чертам лица, росту, поведению, одежде, манере речи и т. д.. И поскольку он/она пытается предсказать непрерывную переменную (возраст), это, по сути, проблема регрессии.

Итак, вот оно — 10 примеров того, как мы подсознательно используем науку о данных и машинное обучение каждый день. Дайте мне знать, какие другие примеры приходят на ум в комментариях ниже. Надеюсь, вам понравился пост!

Первоначально опубликовано на http://thecraftofdata.com.