Прежде чем мы углубимся в «Как», давайте обратим внимание на «Почему».

Зачем становиться специалистом по анализу данных?

Мы живем в мире, управляемом данными. Что делает компании ценными, так это объем, уникальность и качество данных, которые они накопили за годы работы. Информация, полученная из данных, дает компаниям рычаги воздействия на своих конкурентов. В то же время больше людей, чем когда-либо в мировой истории, теперь могут позволить себе роскошь находиться в сети и быть потребителями множества онлайн-услуг. Очевидно, что объем данных вырос в геометрической прогрессии и будет расти только бесконечно.

В настоящее время компании постоянно нуждаются в более квалифицированных людях, которые могут правильно работать с этим массивным набором данных и помогать решать реальные проблемы компаний и помогать им продолжать улучшать свои продукты и услуги.

«Специалист по анализу данных в течение многих лет считался одной из самых популярных вакансий, что подтверждается его третьим подряд номером 1 в списке 50 лучших вакансий в Америке Glassdoor. Это связано с высоким спросом (4 524 открытых вакансии), высокой заработной платой (средний базовый оклад 110 000 долларов США) и высоким уровнем удовлетворенности работой (4,2). Не только технологические компании изо всех сил пытаются нанять специалистов по обработке данных, но и отрасли по всему миру, от здравоохранения до некоммерческих организаций и розничной торговли, также ищут этот талант ».

- Эндрю Чемберлен, главный экономист, Glassdoor

На момент написания этой статьи, согласно отчетам Glassdoor, средняя базовая зарплата специалистов по данным составляет ошеломляющие 120 931 доллар в год, а средняя базовая зарплата - 110 000 долларов в год.

В конце концов, есть множество способов заработать деньги. Что является более важной мотивацией?

Как специалист по данным, вы сможете лучше понять мир и то, почему люди ведут себя именно так. Вы сможете помогать странам формировать политику, НПО смягчать угрозы, помогать компаниям заработать состояние и, возможно, в свободное время предсказывать будущее!

1. Изучите Python

Я собирался посоветовать выучить любой язык программирования. Но я знаю, что время имеет огромное значение, и если есть один язык программирования, на изучение которого вы можете потратить время, пусть это будет Python. Почему? Python, пожалуй, самый популярный язык программирования из-за его простоты (удобочитаемости) и полезности. Его легче понять благодаря простому синтаксису. Некоторые языки программирования перегружены круглыми скобками, скобками, запятыми и двоеточиями, но Python в этом отношении проще, а также устраняет избыточность. Он очень мощный, но интуитивно понятный в использовании. В предыдущей статье я объяснил, как настроить компьютер для написания и запуска скриптов Python. Когда вы освоите основы Python, вам нужно будет посвятить время пониманию существующих библиотек. Вам нужно будет понять, что вы можете с ними делать, и как вы можете реализовать функции, которые библиотеки предоставляют в вашем коде.

Руководство по некоторым библиотекам Python, с которыми вы должны быть знакомы:
1. Основные библиотеки: Numpy, Scipy, Pandas < br /> 2. Визуализация: Matplotlib, Seaborn
3. Машинное обучение и глубокое обучение: SciKit-Learn, TensorFlow, Theano, Keras
4. Обработка естественного языка - NLTK, TextBlob , Aylien
5. Веб-парсинг - Запросы, BeautifulSoup 4, Scrapy

2. Понимание статистики и математики

Вам нужно будет использовать различные концепции статистики и математики в целом, чтобы иметь смысл наблюдений в реальном мире. Статистика обычно считается одним из столпов науки о данных. Но поскольку это такая обширная область изучения, она может быть довольно напряженной и даже пугающей, особенно если вы не знаете, с чего начать. К счастью, есть отличный плейлист, созданный Сираджем Равалем по различным концепциям математики, необходимым для машинного обучения (также применим к науке о данных), который называется Математика интеллекта. Для начала вам потребуется твердое понимание вероятности, статистического вывода (проверка гипотез, p-значений, доверительных интервалов), регрессионных моделей и базового понимания корреляции.

«Специалист по данным - это тот, кто лучше разбирается в статистике, чем любой инженер-программист, и лучше в разработке программного обеспечения, чем любой статистик».

3. Изучите SQL

В мире полно данных. Все компании, о которых вы когда-либо слышали, хранят какие-то данные о предоставляемых ими услугах. От Facebook до New York Times, все эти компании используют базы данных, которые представляют собой программу, которая помогает хранить данные, а также предоставляет другие функции, такие как добавление, изменение или запрос данных из этих баз данных. SQL (язык структурированных запросов) - это язык, полностью разработанный для взаимодействия с этими базами данных. Вам нужно знать SQL, чтобы делать множество вещей, например, быстро добавлять, изменять или извлекать данные из этих баз данных. Один из лучших ресурсов для изучения SQL - это SQL Zoo. Khan Academy также предлагает бесплатный курс под названием Введение в SQL: запросы и управление данными, который является отличным местом для начала обучения. Вы также можете воспользоваться сотнями бесплатных шпаргалок по SQL, поскольку вам необходимо регулярно пересматривать эти запросы, чтобы гарантировать их запоминание.

4. Понять алгоритмы

Алгоритмы так же важны для компьютерных программ, как рецепты для приготовления пищи. Алгоритмы дадут вам набор инструкций, которым нужно следовать, или руководство, если хотите, для эффективной реализации вашего кода. Существует множество алгоритмов со своей отличительной техникой подхода к ситуации. Вам нужно будет изучить их все и понять, когда использовать какой алгоритм, в зависимости от обстоятельств проблемы, которую вы пытаетесь решить.

Алгоритмы можно разделить на 3 основных типа:

Контролируемый алгоритм, Неконтролируемые алгоритмы, Алгоритмы усиления.

Вот руководство по некоторым алгоритмам, которые должен знать каждый специалист по данным:

Линейная регрессия, Логистическая регрессия, Наивный Байес, K-ближайший сосед, Машины опорных векторов , Дерево решений, Случайный лес.

Когда вы разберетесь с концепциями, чрезвычайно важно реализовать их самостоятельно, чтобы действительно понять, как они работают. Есть действительно классный репозиторий G ithub с минимальными и чистыми примерами реализации алгоритмов машинного обучения. Вы можете разветвить репо и выполнить код на своем компьютере.

5. Изучите навыки презентации

Вам необходимо развивать способность сообщать о своих результатах. Вам нужно знать, как хорошо описать свои результаты, как можно их объяснить и как лучше всего их представить. Иногда, независимо от того, насколько хорош ваш основной анализ, если вы не сможете сообщить свои результаты другим или представить свои идеи наиболее полным образом, ваш анализ будет подорван. Чтобы хорошо представить свои результаты, вам необходимо знать, как использовать различные библиотеки визуализации данных в Python. Кроме того, у вас может быть преимущество, если вы знаете, как работать с такими технологиями, как Tableau. Людям проще и удобнее получать информацию из данных с помощью визуальных элементов. вместо того, чтобы рыться в огромных объемах данных.

6. Присоединяйтесь к сообществу

Я не могу не подчеркнуть, насколько необходимо стать частью сообщества. Многие люди считают, что это путешествие в одиночку, что далеко от истины. Принадлежность к сообществу не только поможет вам впитать коллективные знания людей со всего мира, но и склонит ваш корабль к тому, куда мир сейчас движется. Трудно отстать, когда вы активно участвуете в публичных обсуждениях и форумах. Вам обязательно стоит присоединиться и регулярно изучать GitHub, который насчитывает более 30 миллионов репозиториев и более 12 миллионов пользователей. Практически все компании, большие и маленькие, предоставляют большое количество ресурсов с открытым исходным кодом, чтобы вы могли использовать их совершенно бесплатно и вносить свой вклад в проект. Вы можете увидеть, над чем в настоящее время работают люди во всем мире, и уровень сложности кода, который требуется.

Вот некоторые люди и организации, за которыми я следую в Твиттере, чтобы получать регулярные обновления об общей сфере науки о данных. Вы можете получить доступ к моему полному списку здесь.

Эта статья ни в коем случае не является полным списком всех навыков, необходимых для действительно хорошего специалиста по данным. Я даже не включил названия книг, которые вы должны прочитать, и есть много мест, которые я намеренно пропустил. Цель статьи - дать вам общее представление о том, какие навыки требуются от человека, если он решит заниматься наукой о данных. Мир быстро меняется, и каждый день некоторые вещи становятся неактуальными. Библиотеки устаревают, появляются новые улучшенные библиотеки. Бесполезно бороться с испытанием временем, потому что ничто не может и ничто не сможет.

Удачи!

Получайте лучшие предложения по программному обеспечению прямо в свой почтовый ящик