Изображение из Техасского университета в Остине.

Сегодня третья часть моего мини-сериала об анатомии Data Scientist. Первые две недели я говорил о том, что специалисту по данным необходимо решать проблемы и иметь аналитические навыки, а также о том, как специалист по данным использует статистику в своей работе. Сегодня мы узнаем о роли машинного обучения в наборе навыков, необходимых для того, чтобы стать эффективным специалистом по данным. Мы рассмотрим границы между статистикой, кодированием и их ролью в этой новой области.

Наука о данных и машинное обучение дополняют друг друга. Одно из лучших определений, которые я видел заключается в том, что Data Scientist обычно определяет, какой подход к машинному обучению использовать, моделирует алгоритмы и прототипы и тестирует их, используя язык программирования, такой как R или Python. Машинное обучение — это способ найти закономерности из прошлого, чтобы предсказать, что может произойти в будущем. Мне нравится думать, что Data Scientist больше отвечает за стратегию данных, поскольку они решают, какой алгоритм использовать для решения проблемы, а инженер по машинному обучению внедряет алгоритм в производство в больших масштабах.

(Im

возраст Дрю Конвей)

Существует два типа машинного обучения: контролируемое и неконтролируемое или прогнозирующее и описательное. В машинном обучении используются пять основных этапов: сбор данных, подготовка данных, обучение модели, оценка модели и повышение производительности. Имейте в виду, что ключевым моментом машинного обучения является количественный ответ на бизнес-задачу. Я думаю, что нам (начинающим) и настоящим специалистам по данным может быть легко использовать все эти инструменты для решения проблемы и получения ценности для организации. Мы делаем это, получая знания из данных.

Одна из первых проблем машинного обучения, с которой сталкивается большинство людей, когда они впервые изучают эту дисциплину, связана с набором данных, который пытается ответить на вопрос о том, какой тип цветка ириса вы получите, учитывая определенные характеристики цветка. По этому поводу есть много руководств: http://machinelearningmastery.com/machine-learning-in-python-step-by-step/ и http://scikit-learn.org/stable/tutorial/basic/tutorial .html . Суть машинного обучения заключается в описании характеристик в числовом выражении, чтобы можно было предсказать будущее. На следующей неделе я завершу серию Анатомия специалиста по данным, рассмотрев навыки межличностного общения, необходимые для того, чтобы стать ниндзя в области обработки данных.

Рубрика: Аспирантура по науке о данных, Талант в области данных, Машинное обучение

Первоначально опубликовано на http://thedatalass.com 6 марта 2017 г.