Насколько просто Data Science?

Иногда, когда вы слышите, как специалисты по обработке данных снимают с десяток алгоритмов, обсуждая свои эксперименты, или вдаваясь в подробности использования Tensorflow, вы можете подумать, что непрофессионалу невозможно освоить науку о данных. Большие данные выглядят как еще одна загадка Вселенной, которая будет заперта в башне из слоновой кости с горсткой современных алхимиков и магов. В то же время вы слышите о насущной необходимости стать управляемым данными отовсюду.

Хитрость в том, что раньше у нас были только ограниченные и хорошо структурированные данные. Теперь, с появлением глобального Интернета, мы плывем в нескончаемых потоках структурированных, неструктурированных и частично структурированных данных. Это дает нам больше возможностей для понимания промышленных, коммерческих или социальных процессов, но в то же время требует новых инструментов и технологий.

Наука о данных - это просто расширение математики 21 века, которым люди занимались веками. По сути, это тот же навык использования доступной информации для понимания и улучшения процессов. Будь то небольшая таблица Excel или 100 миллионов записей в базе данных, цель всегда одна: найти ценность. Что отличает Data Science от традиционной статистики, так это то, что она пытается не только объяснить значения, но и предсказать будущие тенденции.

Другими словами, мы используем Data Science для:

Наука о данных - это недавно разработанная смесь алгоритмов машинного обучения, статистики, бизнес-аналитики и программирования. Эта смесь помогает нам выявить скрытые закономерности из необработанных данных, что, в свою очередь, дает представление о бизнес-процессах и производственных процессах.

Что должен знать специалист по данным?

Чтобы заняться наукой о данных, вам потребуются навыки бизнес-аналитика, статистика, программиста и разработчика машинного обучения. К счастью, для того, чтобы впервые погрузиться в мир данных, вам не нужно быть экспертом ни в одной из этих областей. Давайте посмотрим, что вам нужно и как вы можете научить себя необходимому минимуму.

Бизнес-аналитика

Когда мы впервые смотрим на Data Science и Business Intelligence, мы видим сходство: они оба сосредотачиваются на данных, чтобы обеспечить благоприятные результаты, и оба предлагают надежные системы поддержки принятия решений. Разница в том, что в то время как бизнес-аналитика работает со статическими и структурированными данными, Data Science может обрабатывать высокоскоростные и сложные многоструктурированные данные из самых разных источников данных. С практической точки зрения BI помогает интерпретировать прошлые данные для отчетности или Описательной аналитики, а Data Science анализирует прошлые данные, чтобы делать прогнозы на будущее в Предиктивной аналитике или Предписывающей аналитике.

Помимо теорий, чтобы начать простой проект в области науки о данных, вам не нужно быть опытным бизнес-аналитиком. Вам нужно иметь четкое представление о следующих моментах:

  • есть вопрос или что-то, что вам интересно;
  • найти и собрать соответствующие данные, которые существуют для вашей области интересов и могут ответить на ваш вопрос;
  • анализировать ваши данные с помощью выбранных инструментов;
  • посмотрите на свой анализ и попытайтесь интерпретировать результаты.

Как видите, в самом начале пути вашего любопытства и здравого смысла может хватить с точки зрения бизнес-аналитики. В более сложной производственной среде, вероятно, будут отдельные бизнес-аналитики, которые будут выполнять глубокую интерпретацию. Однако важно иметь хотя бы смутное представление о задачах и стратегиях бизнес-аналитики.

Ресурсы

Мы рекомендуем вам ознакомиться со следующими вводными книгами, чтобы чувствовать себя более уверенно в аналитике:

Введение в основные концепции бизнес-аналитики - содержательная статья, дающая обзор основных концепций бизнес-аналитики;

Бизнес-аналитика для чайников - пошаговое руководство по технологиям бизнес-аналитики;

Big Data & Business Intelligence - онлайн-курс для начинающих;

Основы бизнес-аналитики - еще один вводный курс, обучающий базовым понятиям BI.

Статистика и вероятность

Вероятность и статистика - основа Data Science. Говоря простым языком, статистика - это использование математики для технического анализа данных. С помощью статистических методов делаем оценки для дальнейшего анализа. Сами статистические методы зависят от теории вероятностей, которая позволяет нам делать прогнозы. И статистика, и вероятность - отдельные и сложные области математики, однако, как начинающий специалист по данным, вы можете начать с 5 основных статистических концепций:

  • Статистические функции. Такие вещи, как смещение, дисперсия, среднее значение, медиана, процентили и многие другие, являются первым методом статистики, который вы примените при изучении набора данных. Их довольно легко понять и реализовать в коде даже на уровне новичка.
  • Распределения вероятностей представляют собой вероятности всех возможных значений в эксперименте. Наиболее распространенными в науке о данных являются равномерное распределение, которое касается событий, которые с одинаковой вероятностью произойдут, гауссово или нормальное распределение , где большинство наблюдений группируется вокруг центрального пика (среднего), а вероятности для более отдаленных значений одинаково сужаются в обоих направлениях колоколообразной кривой, а распределение Пуассона похоже на гауссово но с дополнительным фактором асимметрии.
  • Избыточная и недостаточная выборка, которые помогают сбалансировать наборы данных. Если класс большинства чрезмерно представлен, недостаточная выборка помогает выбрать из него некоторые данные, чтобы сбалансировать их с классом меньшинства. Когда данных недостаточно, передискретизация дублирует значения класса меньшинства, чтобы иметь такое же количество примеров, как и у класса большинства.
  • Уменьшение размерности. Наиболее распространенным методом, используемым для уменьшения размерности, является PCA, который по сути создает векторные представления функций, показывающие, насколько они важны для выходных данных, то есть их корреляции.
  • Байесовская статистика. Наконец, байесовская статистика - это подход, применяющий вероятность к статистическим задачам . Она предоставляет нам математические инструменты для обновления наших представлений о случайных событиях. в свете появления новых данных или свидетельств об этих событиях.

Ресурсы

Мы выбрали всего несколько книг и курсов, которые ориентированы на практику и могут помочь вам почувствовать вкус статистических концепций с самого начала:

Практическая статистика для специалистов по анализу данных: 50 основных концепций - солидная практическая книга, которая знакомит с основными инструментами, специально предназначенными для науки о данных;

Голая статистика: избавляемся от страха перед данными - простыми словами введение в статистику;

Статистика и вероятность - вводный онлайн-курс;

Статистика для науки о данных - специальный курс по статистике, разработанный для специалистов по данным.

Программирование

Наука о данных - это захватывающая область для работы, поскольку она сочетает в себе передовые статистические и количественные навыки с реальными способностями к программированию. В зависимости от вашего опыта вы можете выбрать язык программирования по своему вкусу. Однако наиболее популярными в сообществе Data Science являются R, Python и SQL.

  • R - мощный язык, специально разработанный для нужд науки о данных. Он выделяется огромным количеством приложений для статистики и визуализации данных, а открытый исходный код имеет активное сообщество участников. Фактически, 43% специалистов по обработке данных используют R для решения статистических задач. Однако его сложно выучить, особенно если вы уже освоили язык программирования.
  • Python - еще один распространенный язык в Data Science. 40 процентов опрошенных O’Reilly респондентов используют Python в качестве основного языка программирования. Благодаря своей универсальности вы можете использовать Python практически на всех этапах анализа данных. Это позволяет вам создавать наборы данных, и вы можете буквально найти любой тип набора данных, который вам нужен в Google. Идеально подходящий для начального уровня и простой в освоении, Python остается интересным для экспертов в области науки о данных и машинного обучения с более сложными библиотеками, такими как Tensorflow от Google.
  • SQL (язык структурированных запросов) более полезен как язык обработки данных, чем как расширенный аналитический инструмент. ИТ-специалисты могут помочь вам выполнять такие операции, как добавление, удаление и извлечение данных из базы данных, а также выполнять аналитические функции и преобразовывать структуры базы данных. Несмотря на то, что NoSQL и Hadoop стали важным компонентом Data Science, ожидается, что специалист по данным может писать и выполнять сложные запросы на SQL.

Ресурсы

Ресурсов для любого языка программирования и любого уровня владения языком предостаточно. Мы предлагаем посетить DataCamp, чтобы изучить базовые навыки программирования, необходимые для Data Science.

Если вы чувствуете себя более комфортно с книгами, обширная коллекция бесплатных электронных книг по программированию O’Reilly поможет вам выбрать язык для овладения.

Машинное обучение и ИИ

Хотя ИИ и наука о данных обычно идут рука об руку, большое количество специалистов по данным не разбираются в областях и методах машинного обучения. Однако наука о данных включает в себя работу с большими объемами наборов данных, которые требуют освоения методов машинного обучения, таких как машинное обучение с учителем, деревья решений, логистическая регрессия и т. Д. Эти навыки помогут вам решать различные задачи науки о данных, основанные на предсказаниях основные организационные результаты.

На начальном уровне машинное обучение не требует больших знаний в математике или программировании, только интерес и мотивация. Основное, что вы должны знать об машинном обучении, заключается в том, что в его основе лежит одна из трех основных категорий алгоритмов: обучение с учителем, обучение без учителя и обучение с подкреплением.

  • Контролируемое обучение - это ветвь машинного обучения, которая работает с помеченными данными, другими словами, информация, которую вы вводите в модель, имеет готовый ответ. Ваше программное обеспечение учится, делая прогнозы о результатах и ​​затем сравнивая их с фактическим ответом.
  • В обучении без учителя данные не маркируются, и цель модели - создать из них некую структуру. Обучение без учителя можно разделить на кластеризацию и ассоциацию. Он используется для поиска закономерностей в данных, которые особенно полезны в бизнес-аналитике для анализа поведения клиентов.
  • Обучение с подкреплением ближе всего к человеческому обучению, т. е. методом проб и ошибок. Здесь создается функция производительности, чтобы сообщить модели, приблизило ли то, что она сделала, к ее цели или заставило пойти другим путем. На основе этой обратной связи модель учится, а затем делает еще одно предположение, это продолжает происходить, и каждое новое предположение становится лучше.

Помня об этих широких подходах, у вас будет костяк для анализа ваших данных и изучения конкретных алгоритмов и методов, которые подойдут вам лучше всего.

Ресурсы

Как и в случае с программированием, существует множество книг и курсов по машинному обучению. Вот лишь пара из них:

Учебник глубокого обучения Иэна Гудфеллоу, Йошуа Бенжио и Аарона Курвилля - классический ресурс, рекомендуемый для всех студентов, которые хотят овладеть машинным и глубоким обучением.

Курс Машинное обучение Эндрю Нг - это абсолютная классика, которая проведет вас через самые популярные алгоритмы машинного обучения.

Машинное обучение A-Z ™: практические занятия по Python и R в науке о данных - курс Udemy специально для начинающих специалистов по данным, который знакомит с основными концепциями машинного обучения как в R, так и в Python.

Какими навыками должен обладать специалист по данным?

Теперь вы знаете основные требования к Data Science. Делает ли это вас хорошим специалистом по данным? Хотя правильного ответа нет, следует учитывать несколько моментов:

Аналитическое мышление: это общее требование для любого человека, работающего с данными. Однако, если на начальном уровне может хватить здравого смысла, ваше аналитическое мышление должно быть дополнительно подкреплено статистическим опытом и знаниями структур данных и алгоритмов машинного обучения.

Сосредоточьтесь на решении проблем: когда вы осваиваете новую технологию, возникает соблазн использовать ее повсюду. Однако, хотя важно знать последние тенденции и инструменты, цель Data Science - решать конкретные проблемы. извлекая знания из данных. Хороший специалист по данным сначала понимает проблему, затем определяет требования к ее решению и только потом решает, какие инструменты и методы лучше всего подходят для этой задачи. Не забывайте, что заинтересованные стороны никогда не будут очарованы впечатляющими инструментами, которые вы используете, а только эффективностью вашего решения.

Знание предметной области: специалистам по обработке данных необходимо понимать бизнес-проблему и выбирать подходящую модель для этой проблемы. Они должны уметь интерпретировать результаты своих моделей и быстро выполнять итерацию, чтобы прийти к окончательной модели. Им нужно внимательно следить за деталями.

Навыки общения: для понимания проблемы и предоставления постоянной обратной связи на простом языке заинтересованным сторонам необходимо много общаться. Но это лишь поверхность важности общения - гораздо более важный элемент этого - задавать правильные вопросы. Кроме того, специалисты по обработке данных должны иметь возможность четко задокументировать свой подход, чтобы кто-то другой мог опираться на эту работу и, наоборот, понимать исследовательскую работу, опубликованную в их области.

Как видите, хорошего специалиста по обработке данных составляет сочетание различных технических навыков и навыков межличностного общения.