Термин «наука о данных» был придуман и стал популярным чуть более полувека назад. Когда в 2013 году я перешел в эту область из астрономии, у меня было много путаницы в отношении того, что требуется от Data Scientist. С тех пор наука о данных развилась, и некоторые темы стали постоянными.

Наука о данных о продуктах. Это название различается в разных компаниях, в некоторых местах это чистая бизнес-аналитика, а в других эта роль также включает моделирование данных. Основными навыками для такой роли являются,

SQL . Первичным требованием является возможность запрашивать данные из таблиц. Вот список сайтов, на которых вы можете узнать больше о SQL.

Помимо SQL могут быть полезны некоторые базовые знания баз данных nosql, таких как mongodb, dynamodb и т. д. Использование Spark и Hive также может быть полезно для работы с большими данными. Также полезно пройти курсы по базам данных на МООК. Помимо возможности запрашивать данные, важно иметь возможность разбивать данные на части, создавать диаграммы и представлять их так, чтобы из них можно было легко извлечь бизнес-полезную информацию.

Для этого требуется хорошее знание статистики и понимание бизнеса.

Превосходство в последнем приходит с опытом. Другой важной частью этой роли является построение/оценка конвейеров A/B-тестирования (или множественного тестирования ячеек). Большинство предприятий будут регулярно тестировать новые алгоритмы, дизайн и функции продукта. Работа специалистов по данным о продуктах заключается в том, чтобы регулярно владеть этим процессом. Роль науки о продуктах во многом совпадает с бизнес-аналитикой.

Знание Python/R также необходимо в этой роли.

Наука о данных для алгоритмов. Название этой должности сильно различается в разных компаниях. В некоторых местах нанимают только инженеров по машинному обучению, и обычно они нанимают людей с сильными навыками в области компьютерных наук в сочетании со знаниями в области машинного обучения. В других компаниях есть роль ученого-исследователя в области машинного обучения. Первое придает большее значение алгоритмам CS, чем второе.

Для обеих ролей очень важно хорошо понимать и уметь решать проблемы, связанные со структурами данных, сортировкой, поиском, рекурсией, динамическим программированием и т. д. Некоторыми хорошими источниками для этого являются: Взлом интервью по кодированию, Leetcode, hackerrank и т. д. Если вы, как и я, переходите к науке о данных из физики, имеет смысл пройти онлайн-курс и послушать видео решения конкретные проблемы, чтобы понять это.

Алгоритмы CS — это лишь часть процесса собеседования, роли Data Science обычно требуют хорошего понимания вероятности и статистики.

Понятия, связанные с распределением вероятностей, условной вероятностью, показателями центральной тенденции, имеют первостепенное значение для успеха на собеседовании.

Кроме того, оценка и проверка гипотез являются ключом к пониманию того, почему и как ваши модели работают в разных парадигмах.

Наиболее важной частью роли, ориентированной на алгоритмы, является машинное обучение. Строительные блоки Машинного обучения — это понимание того, как работают основные алгоритмы: логистическая регрессия, наивный байесовский алгоритм, деревья, случайный лес и многие другие. Для многих из этих алгоритмов разработка признаков очень важна и определяет производительность модели. При изучении этих алгоритмов важно углубиться и понять, как работает внутренняя математика хотя бы для одного алгоритма.

В настоящее время Глубокое обучение приобрело большое значение из-за его способности давать чрезвычайно качественные результаты в таких областях, как компьютерное зрение, машинный перевод и понимание человеческого языка. Одним из преимуществ использования глубокого обучения является то, что модели могут обрабатывать любые функции, и специалисту по данным не нужно беспокоиться о разработке функций. С появлением пакетов с открытым исходным кодом, таких как tensorflow, pytorch, keras и других, написание моделей глубокого обучения стало довольно простым.

Метрики оценки. Очень важной частью машинного обучения является возможность оценивать модели и правильно их интерпретировать.

Традиционно точность, полнота, точность, показатель F1 и кривые ROC рассчитываются для понимания производительности модели.

Каждая ситуация уникальна: у вас может быть классификатор с несколькими метками, в котором некоторые типы неправильной классификации могут быть более приемлемыми, чем другие. В этом случае вы должны определить свои собственные показатели, которые правильно отражают ваш вариант использования. Бывает и случай аномального поведения, когда данные сильно разбалансированы и метрики нужно оценивать для каждого класса отдельно для построения робастной модели. В Applied Predictive Modeling есть несколько глав, посвященных оценке, что очень полезно.

Понимание продукта: знание продукта становится совершенно необходимым для компании, ориентированной на продукт, например, существует огромное количество компаний, работающих с двусторонними рынками, и при прохождении собеседования в этих компаниях важно работать через несколько проблем в этой области. Это развивает хороший здравый смысл для таких продуктов. Другие продукты могут быть ориентированы на определенный тип клиентов (студенты, кинозрители, розничная торговля и т. д.), в этом случае полезно понять образ мышления клиентской базы, чтобы быстро применить методы моделирования к реальным проблемам.

Коммуникация. Потребителями результатов науки о данных являются бизнес, продукт, инженеры или другие специализированные команды. Чтобы быть успешным специалистом по данным, важно уметь предоставлять результаты и сообщать о них таким образом, чтобы они были полезны другим командам. Развитие мягких навыков, позволяющих объяснить, что возможно, а что невозможно с помощью алгоритмов, упрощает установление ожиданий.

Специалисты по данным носят много шляп (инженеры, бизнес, продукт и т. д.), в этом блоге рассказывается о некоторых необходимых базовых навыках. Есть много других аспектов роли, которым люди учатся на работе. Во многих случаях один человек не может освоить все, и люди решают специализироваться в подобластях (машинное обучение, аналитика, базы данных, глубокое обучение и т. д.), что также очень ценно. Важно получать удовольствие от работы, чтобы добиться успеха, найти нишу, в которой есть спрос, а также индивидуальная страсть, сделают процесс перехода в эту новую область захватывающим.