Наука о данных - это намного больше, чем прогнозное моделирование

Статистики, как и художники, имеют дурную привычку влюбляться в своих моделей - Джордж Бокс

В корпоративном мире Data Science часто ассоциируется с прогнозным моделированием. Это понятно по ряду причин. В названии двух самых популярных книг по этой теме есть предсказания (см. Здесь и здесь). Нейт Сильвер, возможно, самый известный в мире специалист по анализу данных, прославился после того, как правильно сделал прогнозы (в большом масштабе). И один из самых популярных веб-сайтов Data Science, по сути, является форумом для конкурентных прогнозов. Однако есть много разновидностей науки о данных.

В этой статье я дам краткое описание 6 различных типов анализа, которые можно рассматривать как Data Science. Это не исчерпывающий или взаимоисключающий список, но он подчеркивает разнообразие методов и приложений Data Science. Для каждой категории я резюмирую, к чему она относится, как ее можно использовать с анекдотическим приложением, а также перечислю некоторые аналитические методы, относящиеся к этой конкретной области.

Прогнозное моделирование

Прогнозное моделирование (также называемое машинным обучением с учителем) обычно относится к оценке количества или категории интереса на основе исторических корреляций. Например, если компания хочет спрогнозировать свои продажи в будущем на основе суммы денег, которые они потратили на рекламу, для этого можно использовать прогнозное моделирование. Технически существует множество различных подходов к моделированию, от общего линейного моделирования до древовидных подходов, ARIMA и нейронных сетей, каждый из которых имеет свои сильные и слабые стороны.

Сетевой анализ

Под сетевым анализом понимается анализ связей между объектами как метод раскрытия информации об этих объектах. Например, если компания хочет лучше обслуживать своих клиентов, она может использовать сетевой анализ, чтобы помочь связать своих клиентов друг с другом или определить, какие из их клиентов имеют наибольшее влияние. Технически сетевой анализ часто сводится к выбору определений для соединений и показателей, используемых для определения релевантности этих соединений.

Моделирование

Моделирование относится к представлению системы или процесса, который определяется известными отношениями. Одна из причин, по которой вы могли бы использовать моделирование, заключается в оценке количеств, которые в противном случае были бы слишком сложными для оценки. Например, если компания хочет открыть новый офис и знает взаимосвязь между продажами и экономическими показателями населения города, они могут использовать моделирование, чтобы помочь им найти оптимальное местоположение. Одна из самых популярных процедур моделирования называется «Моделирование методом Монте-Карло», которое можно рассматривать как процесс многократного извлечения значений из распределений в качестве входных данных для набора моделей, которые затем предоставляют диапазон возможных выходных значений.

Системы рекомендаций

Механизмы рекомендаций - это инструменты, которые делают предложения пользователям-людям. Если веб-сайт хочет лично направлять своих читателей к контенту, который им может понравиться, они могут реализовать механизм рекомендаций для этого. Технически подходы к механизмам рекомендаций можно разделить на две общие категории: совместная фильтрация, основанная на поведении пользователя, и фильтрация на основе содержимого, которая основана на сопоставлении пользовательских предпочтений и характеристик продукта.

Кластеризация

Кластерный анализ - это определение и представление членства в группах без предварительного знания того, что делает эти группы похожими. Например, компания может захотеть определить клиентские сегменты, чтобы лучше продавать свою продукцию. Они могут использовать кластеризацию для идентификации этих групп на основе того, что они знают о своих клиентах, таких как демографические характеристики и покупательское поведение. Помимо сегментации клиентов, кластеризация может быть полезна для самых разных целей: выявление выбросов, сжатие данных и даже создание входных данных для прогнозных моделей - все это допустимые применения кластерного анализа. С технической точки зрения, двумя наиболее популярными методами кластеризации являются кластеризация с использованием метода K-средних и иерархическая агломеративная кластеризация.

Обработка естественного языка

Обработка естественного языка относится к большому набору задач, связанных с извлечением смысла из текстовых данных. Когда онлайн-бизнес хочет идентифицировать общие фразы в своих обзорах продуктов, они будут использовать методы обработки естественного языка, чтобы извлечь это значение из неструктурированной текстовой информации. Некоторые распространенные приложения для обработки естественного языка - анализ тональности, тематическое моделирование и классификация документов. Обработка естественного языка - чрезвычайно горячая область как в академических кругах, так и только начинает широко использоваться в мейнстриме корпоративной Америки.

Состояние науки о данных

Если посмотреть на состояние науки о данных в корпоративной среде, некоторые из этих методов используются более широко, чем другие. Например, большинство компаний составляют какие-то прогнозы. Но многие компании не анализируют свои текстовые данные значимым образом или не думают о том, как расширить возможности своих сотрудников с помощью механизмов рекомендаций.

Одно предсказание, которое я сделаю. Ближайшие годы будут захватывающим временем для работы в области науки о данных.