Навыки, которые сделают вас трудоустроенным

Вступление

Многие курсы и статьи «Как заниматься наукой о данных», включая мою собственную, как правило, посвящены фундаментальным навыкам, таким как статистика, математика и программирование. Однако недавно на собственном опыте я заметил, что эти фундаментальные навыки бывает трудно превратить в практические навыки, которые сделают вас трудоустроенным.

Поэтому я хотел создать уникальный список практических навыков, которые сделают вас пригодными для работы.

Первые четыре навыка, о которых я говорю, абсолютно необходимы для любого специалиста по данным, независимо от того, на чем вы специализируетесь. Следующие навыки (5–10) являются важными навыками, но их использование зависит от того, на чем вы специализируетесь.

Например, если у вас больше всего статистических данных, вы можете потратить больше времени на статистические выводы. И наоборот, если вас больше интересует текстовая аналитика, вы можете уделять больше времени изучению НЛП или, если вас интересует наука о принятии решений, вы можете сосредоточиться на объяснительном моделировании. Вы уловили суть.

С учетом сказанного, давайте углубимся в то, что, по моему мнению, является 10 наиболее практичными навыками в области науки о данных:

Если вам это нравится, не забудьте подписаться, чтобы никогда не пропустить ни одной статьи о руководствах, приемах и советах по науке о данных, жизненных уроках и многом другом!

1. Написание SQL-запросов и построение конвейеров данных

Изучение того, как писать надежные SQL-запросы и их планирование на платформе управления рабочими процессами, такой как Airflow, сделает вас чрезвычайно желанным специалистом по данным, поэтому это пункт №1.

Почему? Есть много причин:

  1. Гибкость: такие компании, как специалисты по обработке данных, могут больше, чем просто моделировать данные. Компании ОБОЖАЮТ специалистов по анализу данных. Если вы сможете вмешаться и помочь создать основные конвейеры данных, вы сможете улучшить собираемую информацию, создать более надежные отчеты и, в конечном итоге, упростить жизнь всем.
  2. Независимость: будут случаи, когда вам понадобится таблица или представление для модели или проекта по науке о данных, которого не существует. Возможность писать надежные конвейеры для ваших проектов вместо того, чтобы полагаться на аналитиков или инженеров данных, сэкономит ваше время и повысит вашу ценность.

Следовательно, вы ДОЛЖНЫ быть экспертом в SQL как специалист по данным. Никаких исключений.

Ресурсы





2. Преобразование данных / разработка функций

Создаете ли вы модели, исследуете новые возможности для создания или выполняете глубокие погружения, вам нужно знать, как обрабатывать данные.

Преобразование данных означает преобразование ваших данных из одного формата в другой.

Разработка функций - это форма обработки данных, но конкретно относится к извлечению функций из необработанных данных.

Не обязательно, как вы манипулируете своими данными, используете ли вы Python или SQL, но вы должны иметь возможность манипулировать своими данными, как вам нравится (в рамках параметров, которые, конечно, возможны).

Ресурсы





3. Контроль версий

Когда я говорю «контроль версий», я конкретно имею в виду GitHub и Git. Git - это основная система контроля версий, используемая в мире, а GitHub - это, по сути, облачный репозиторий для файлов и папок.

Хотя Git - не самый интуитивно понятный навык для изучения на первых порах, его важно знать почти для каждой отдельной роли, связанной с кодированием. Почему?

  • Это позволяет вам сотрудничать и работать над проектами параллельно с другими.
  • Он отслеживает все версии вашего кода (на случай, если вам нужно вернуться к более старым версиям)

Найдите время, чтобы изучить Git. Вы далеко уйдете!

Если вам это нравится, не забудьте подписаться, чтобы никогда не пропустить ни одной статьи о руководствах, приемах и советах по науке о данных, жизненных уроках и многом другом!

Ресурсы

4. Повествование (т. Е. Общение)

Одно дело создать визуально ошеломляющую панель инструментов или сложную модель с точностью более 95%. НО, если вы не можете донести ценность своих проектов до других, вы не получите признания, которого заслуживаете, и в конечном итоге не добьетесь такого успеха в своей карьере, как следовало бы.

Под повествованием подразумевается, «как» вы передаете свои идеи и модели. Концептуально, если вы думаете о книге с картинками, идеи / модели - это картинки, а «повествование» относится к повествованию, которое соединяет все картинки.

Рассказывание историй и общение - это очень недооцененные навыки в мире технологий. Судя по тому, что я видел за свою карьеру, именно этот навык отличает юниоров от старших и менеджеров.

Ресурсы

5. Регрессия / классификация

Построение регрессионных и классификационных моделей, то есть прогнозных моделей, - это не то, над чем вы будете всегда работать, но это то, о чем работодатели ожидают от вас, если вы специалист по данным.

Даже если это не то, что вы будете делать часто, это то, в чем вы должны хорошо разбираться, потому что вы хотите иметь возможность создавать высокоэффективные модели. Чтобы дать некоторую перспективу, за свою карьеру до сих пор я реализовал только ДВЕ модели машинного обучения, но они были критически важными моделями, которые оказали значительное влияние на бизнес.

Следовательно, вы должны хорошо разбираться в методах подготовки данных, улучшенных алгоритмах, настройке гиперпараметров и метриках оценки модели.

Ресурсы





6. Пояснительные модели

Есть два типа моделей, которые вы можете построить. Одна из них - это прогностическая модель, предполагающая результат на основе ряда входных переменных. Другая - объяснительная модель, которая не используется для прогнозирования, но используется для лучшего понимания взаимосвязей между входными и выходными переменными.

Пояснительные модели обычно создаются с использованием регрессионных моделей. Причина этого в том, что они предоставляют много полезной статистики для понимания взаимосвязей между переменными.

Пояснительные модели невероятно недооценены и полезны, и они необходимы, если вы хотите попасть в сферу науки о принятии решений.

Ресурсы



Интерпретация результатов в пояснительном моделировании
Как мы обсуждали в уроке« Простая линейная регрессия
, мы можем использовать регрессию по разным причинам. Две общие цели… www.jmp.com »



7. A / B-тестирование (эксперимент)

A / B-тестирование - это форма экспериментирования, когда вы сравниваете две разные группы, чтобы увидеть, какая из них работает лучше на основе заданного показателя.

A / B-тестирование, возможно, является наиболее практичной и широко используемой статистической концепцией в корпоративном мире. Почему? A / B-тестирование позволяет объединить сотни или тысячи небольших улучшений, что со временем приведет к значительным изменениям и улучшениям.

Если вас интересует статистический аспект науки о данных, необходимо понять и изучить A / B-тестирование.

Ресурсы



8. Кластеризация

Лично мне не приходилось использовать кластеризацию в своей карьере, но это основная область науки о данных, с которой каждый должен хотя бы быть знаком.

Кластеризация полезна по ряду причин. Вы можете найти разные потребительские сегменты, вы можете использовать кластеризацию для маркировки немаркированных данных, и вы даже можете использовать кластеризацию, чтобы найти точки отсечения для моделей.

Ниже приведены некоторые ресурсы, в которых рассматриваются наиболее важные методы кластеризации, которые вам следует знать.

Ресурсы





9. Рекомендация

Хотя мне не приходилось создавать систему рекомендаций в моей жизни (пока), это одно из самых практических приложений в науке о данных. Системы рекомендаций настолько мощны, потому что они способны увеличивать доход и прибыль. Фактически, Amazon заявила, что увеличила свои продажи на 29% благодаря своим системам рекомендаций в 2019 году.

Итак, если вы когда-либо работали в компании, пользователи которой должны делать выбор и есть множество вариантов выбора, системы рекомендаций могут оказаться полезным приложением. исследовать.

Ресурсы

10. НЛП

НЛП или Обработка естественного языка - это ветвь ИИ, которая фокусируется на тексте и речи. В отличие от машинного обучения, я бы сказал, что НЛП еще далеко от зрелости, и поэтому оно так интересно.

У НЛП много вариантов использования ...

  • Его можно использовать для анализа настроений, чтобы увидеть, как люди относятся к бизнесу или бизнесу (-ам).
  • Его можно использовать для мониторинга социальных сетей компании, разделяя положительные и отрицательные комментарии.
  • НЛП - это ядро ​​создания чат-ботов и виртуальных помощников.
  • НЛП также используется для извлечения текста (просеивания документов).

В целом, НЛП - действительно интересная и полезная ниша в мире науки о данных.

Ресурсы



Спасибо за прочтение!

Я надеюсь, что это поможет вам в учебе и даст вам направление на предстоящий год. Мне нужно многому научиться, поэтому я определенно выберу пару навыков, которые кажутся вам наиболее интересными, и продолжу дальше.

Имейте в виду, что это более самоуверенная статья, основанная на анекдотическом опыте, так что берите то, что вы хотите из этой статьи. Но, как всегда, я желаю вам всего наилучшего в учебе!

Если вам это нравится, не забудьте подписаться, чтобы никогда не пропустить ни одной статьи о руководствах, приемах и советах по науке о данных, жизненных уроках и многом другом!

Не знаете, что читать дальше? Я подобрала для вас другую статью:



и еще один!



Теренс Шин

  • Если вам понравилось, ПОДПИСАТЬСЯ на мой канал для получения эксклюзивного контента!
  • Заинтересованы в сотрудничестве? Давайте подключимся к LinkedIn