Стефано Каридди

Давайте будем откровенны: каждый, у кого есть доступ к Интернету, хотя бы раз в жизни сталкивался с термином наука о данных, и это, вероятно, произошло в последние пять лет.

В этой статье мы стремимся представить некоторые ключевые концепции, необходимые для понимания того, что такое наука о данных, как она связана с машинным обучением и почему она отличается от другой популярной темы, бизнес интеллект.

Вероятно, наиболее удачное объяснение того, что такое наука о данных, относится к 2010 году и представлено на следующем рисунке:

Это знаменитая диаграмма Венна Дрю Конвея для науки о данных, и она является отправной точкой для нашего обсуждения.

На диаграмме Венна Конвея Data Science находится на пересечении трех областей знания. Хакерские навыки означают информатику: специалист по обработке данных - это ученый-компьютерщик, который работает с данными. Математические и статистические знания - это основа для понимания инструментов торговли. Основная экспертиза или знание предметной области необходима для планирования пути, ведущего от необработанных данных к результату.

Эти три макро-области компетенций имеют три области пересечения: Зона опасности, Традиционные исследования и Машинное обучение. Разберем их по порядку.

Один находится в опасной зоне, если думает, что хорошего кодирования и хороших знаний в предметной области достаточно для достижения прорывных результатов. Нет. Точно так же, как плотник, не знающий разницы между гвоздем и винтом, вероятно, плохо справится с постройкой шкафа, так и ученый-аналитик, который не понимает математики, лежащей в основе его / ее инструментов, рискует причинить больше вреда, чем вреда.

Традиционное исследование, с другой стороны, - это когда высокий уровень знаний в предметной области встречается с математикой и статистикой. В области традиционных исследований исследователи объясняют наблюдения теориями, поэтому либо данные соответствуют их теоретической структуре, либо исследователи должны применять ее, чтобы учесть расхождения. Это означает, что данные связаны с известной взаимосвязью и объясняются с ней.

Наконец, машинное обучение - это соединение информатики с математическими и статистическими знаниями без априорных знаний в той области, в которой они будут применяться. Это не опасная зона, потому что цель машинного обучения - иметь возможность смоделировать как явление, а не почему проявляет себя. Иногда невозможно даже объяснить, почему конкретная модель дает правильные результаты (например, в случае нейронных сетей). Модель машинного обучения похожа на человека: она учится на примерах. Ребенку не нужно знать Закон всемирного тяготения Ньютона, чтобы знать, что вещи падают. Им просто нужно знать, что это происходит, чтобы научиться стрелять в баскетбол. Следовательно, это правильный момент, чтобы подчеркнуть ключевую концепцию: больше данных не означает больше информации, а больше информации не означает большего понимания. Машинное обучение направлено на извлечение информации, а не на ее понимание.

Наконец, на пересечении всех макрообластей на диаграмме Конвея лежит Data Science. Наука о данных заключается в понимании проблемы, владении математическими инструментами для ее решения и навыками кодирования, необходимыми для превращения намерений в результаты. Таким образом, наука о данных - это междисциплинарная область.

Поняв, что такое наука о данных, уместно связать ее с бизнес-аналитикой, которая является тесно связанной с этим горячей темой. Самый простой способ выявить разницу между ними заключается в следующем: в то время как бизнес-аналитика направлена ​​на получение полезной информации об известных данных, наука о данных нацелена на создание модели, которая будет применяться к неизвестным данным. Следовательно, мы могли бы выразить это отношение следующей пропорцией:

Бизнес-аналитика: описательный анализ = Наука о данных: прогнозный анализ.

Теперь, если вам интересна тема, но вы боитесь вводить новое поле, мы считаем уместным процитировать Джейка Вандерпласа:

Я бы посоветовал вам думать о науке о данных не как о новой области знаний, которую нужно изучить, а как о новом наборе навыков, которые вы можете применить в своей текущей области знаний.
- Python Справочник по науке о данных, 2016, O'Reilly

Но всегда имейте в виду, что:

С большой силой приходит и большая ответственность.
- Стэн Ли

Узнайте больше о Ennova Research