Определение

Наука о данных, с точки зрения непрофессионала, — это искусство находить понимание в данных. Это профессия, которая требует сочетания математических, программных и бизнес-ориентированных навыков.

Технические

Data Scientist (далее сокращенно DS) должен иметь представление о программировании, чтобы реализовать любое решение, которое может прийти ему в голову. Без этого знания у DS могут быть только идеи, которые никогда не воплотятся в жизнь. Для этой цели используются 3 самых популярных языка программирования: Python, R и MATLAB.

Интуиция в программировании — это то, что достигается годами упорной практики. При написании программы «Hello world» вы поймете, что программированию можно легко научиться; это, безусловно, не так. Написание оптимизированных кодов, позволяющих создать модель, которая может работать в производственной среде, — это процесс, требующий многочисленных итераций и временами способный вырвать волосы из колеи. Какой бы красивой ни была ваша идея, она бесполезна, если ее реализация не выполнена должным образом.

Математика

Статистика и вероятность — одни из самых важных навыков Data Scientist.

Всякий раз, когда DS выдвигает гипотезу, очень важно проверить ее с помощью статистических тестов и проверить, видна ли закономерность только человеческому глазу или она действительно значима. Существует множество тестов, которые обычно используются для этого, и их применение без необходимых знаний о его предположениях и вариантах использования предоставит вам неверные показатели, которые будут иметь катастрофические последствия.

Деловые (предметные) знания

Одним из наиболее востребованных навыков Data Scientist является его опыт работы в отрасли по определенной вертикали. Опыт работы в конкретной вертикали предоставит DS необходимые знания предметной области, которые дадут ему интуитивное представление о том, что ему следует искать, и знание важных метрик, которые у него есть (или нет) в его распоряжении.

Комбинация — наука о данных

Наука о данных — это практика всех этих трех навыков, каждый из которых так же важен, как и другой. В то время как несколько месяцев напряженной работы могут сделать вас экспертом в области технических ноу-хау и необходимых математических знаний, знание предметной области — это интуиция, которая должна постепенно войти в человека. Наука о данных — это новая область, поэтому в разных организациях она имеет разные определения. Однако суть определения уже раскрыта. Хотя онлайн-курсы и учебные курсы могут заставить вас поверить в обратное, правда в том, что наука о данных в настоящее время является постоянно меняющейся областью, и поэтому в нее трудно попасть.