Наука о данных или как вы ее называете - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области», и здесь я покажу вам, почему.

Привет! Это снова я. Я обсуждал части того, что я собираюсь упомянуть здесь, в других статьях, но теперь я хочу дать несколько указаний о том, что не является наукой о данных и как не изучать ее.

Итак, начнем с основ.

Что такое Data Science?

Наука о данных - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области».

Время пришло. Мы создали новое поле или что-то в этом роде. В этой области есть что сказать и чему поучиться. Не имеет значения название, возможно, наука о данных - это всего лишь временное название для более крупной области, но научное изучение данных, получение из них аналитических сведений и способность предсказать что-то - это настоящее и будущее мира. .

Я сосредоточусь на определениях и предложениях, связанных с бизнесом, для науки о данных, может быть, они применимы для данной области в целом, но идеи в этой статье относятся к науке о данных для бизнеса.

Я собираюсь предложить три вещи:

  1. Наука о данных - это наука
  2. Есть ужасные способы изучать науку о данных
  3. Использование хорошо составленных шпаргалок может помочь вам систематически заниматься наукой о данных

Data Science - это наука

Я знаю, что это может быть спорным для некоторых людей, но оставайтесь со мной. Я хочу сказать, что наука о данных, конечно, связана с бизнесом, но это наука, в конце концов, или в процессе становления.

Я определил науку о данных до как:

[…] Решение проблем бизнеса / организаций с помощью математики, программирования и научного метода, предполагающего создание гипотез, экспериментов и тестов с помощью анализа данных и создания прогнозных моделей. Он отвечает за преобразование этих проблем в хорошо сформулированные вопросы, которые также могут дать ответ на исходную гипотезу творческим способом. Он также должен включать эффективное сообщение о полученных результатах и ​​о том, как решение увеличивает ценность для бизнеса / организации.

Я излагаю здесь описание и определение науки о данных как науки. Я думаю, что было бы очень полезно, если бы науку о данных можно было описать как науку, потому что в этом случае каждый проект в этой области должен быть как минимум:

  • Воспроизводимость: необходим для упрощения проверки работы и анализа других.
  • Ошибка: наука о данных и наука не ищут истину, они ищут знания, поэтому каждый проект можно заменить или улучшить в будущем, и никакое решение не является окончательным.
  • Сотрудничество. Специалисты по обработке данных не существуют в одиночку, им нужна команда, эта команда сделает все возможное для разработки интеллектуальных решений. Сотрудничество - это большая часть науки, и наука о данных не должна быть исключением.
  • Креатив: большая часть того, чем занимаются специалисты по данным, - это новые исследования, новые подходы или различные решения, поэтому их среда должна быть очень творческой и простой в работе. Творчество имеет решающее значение в науке, это единственный способ найти решения трудных и сложных проблем.
  • Соответствует нормативным требованиям. Сейчас существует множество нормативов в науке, не так много в области науки о данных, но в будущем их будет больше. Важно, чтобы проекты, которые мы строим, знали об этих различных типах правил, чтобы мы могли найти чистое и приемлемое решение проблем.

Если мы не будем следовать этим основным принципам, будет очень сложно вести надлежащую практику в области науки о данных. Науку о данных следует внедрять таким образом, чтобы процесс принятия решений был систематическим. Но об этом позже.

Как НЕ изучать науку о данных. Большой 3.

Если вы здесь, вполне вероятно, что вы изучаете науку о данных прямо сейчас, или вы прошли несколько MOOC или даже курсы на местах. Я не собираюсь здесь плохо говорить о платформах или плохих курсах, я думаю, мы чему-то можем научиться даже на худших курсах.

1. Видеть и видеть без практики

Если вы изучаете какой-либо предмет, связанный с наукой о данных, например математику, статистику, программирование или что-то в этом роде, и вы просто слушаете класс с таким лицом:

Что ж, вы зря теряете время. Науке о данных нужна практика. Все, что вы изучаете, даже если профессор ничего вам не говорит, попрактикуйтесь и попробуйте. Это фундаментально для действительно понимания вещей, и когда вы работаете в поле, вы будете делать много разных практических вещей.

Хорошие познания в статистике, математике и питоне не сделают вас успешным специалистом по анализу данных. Вам нужно больше, вам нужно овладеть своим ремеслом. Уметь использовать эти инструменты для решения бизнес-задач. Так что, если вы изучаете что-то новое и хотите понять это по-настоящему, найдите сценарий, в котором вы сможете применить это или поиграть с ним.

2. Безумное создание моделей

Мы получаем данные из «внешнего мира», и наше тело и мозг анализируют необработанные данные, которые мы получили, а затем мы «интерпретируем» их.

Что это за «толкование»? То, что мы узнали о том, как реагировать, думать, чувствовать и понимать из информации, которую мы получаем. Когда мы понимаем, мы декодируем части, из которых состоит эта сложная вещь, и преобразуем необработанные данные, которые мы получили вначале, во что-то полезное и простое.

Мы делаем это с помощью моделирования. Это процесс понимания «реальности», мира вокруг нас, но создание прототипа более высокого уровня, который будет описывать то, что мы видим, слышим и чувствуем, но это репрезентативная вещь, а не «реальная» или «реальная». вещь.

Так что подумайте, прежде чем делать это:

model_i_created_i_5_seconds.fit(X,y)

Моделирование - это что-то очень важное в области машинного обучения и науки о данных, но оно должно иметь цель. И вы должны понять их, прежде чем использовать. Теперь, что они предполагают на основе данных перед их обучением, понимают различные метрики, которые они используют для изучения, способы их оценки и многое другое.

Для этого я могу вам сказать, что нет ничего плохого в чтении документации таких библиотек, как Scikit-Learn:



Apache Spark:



Tensorflow:



И более. Они приведут вас к статьям, статьям и другим сообщениям в блогах, и в большинстве из них будут даже практические примеры того, как моделировать в машинном обучении и статистическом обучении.

Также в этой области есть отличные видеоролики, которые за считанные минуты переведут вас с нуля до героя, как и у моего друга Брэндона Рорера:

3. «Ага, я волк-одиночка. Я могу учиться и делать все сама »

Помните, что одна из характеристик, которые я предлагал ранее, заключается в том, что наука о данных - это область сотрудничества. Хорошо изучите это тоже!

Я не говорю здесь, что вам нужно начинать курс с лучшей подругой, но используйте то, что онлайн-платформы дают нам сегодня. У нас есть форумы, чаты, доски обсуждений и многое другое, где вы можете встретить людей, изучающих то же, что и вы. Будет намного легче учиться с большим количеством людей, и не бойтесь задавать вопросы.

Задайте столько вопросов, сколько вам нужно, чтобы что-то понять, и не успокаивайтесь, пока не сделаете это. Не преследуйте людей, но если вы попросите вежливо, большинство людей будут более чем счастливы вам помочь.

Вот отличные ресурсы (помимо тех, которые есть на МООК и курсах), чтобы найти людей, изучающих то же, что и вы:









Систематическая наука о данных со шпаргалками

Шпаргалки экономят ваше время, предоставляя знания о различных частях языка, концепциях или библиотеках. Некоторые шпаргалки также содержат гиперссылки на документацию и шпаргалки на уровне пакетов для наиболее важных пакетов в R, Python, Scala и других.

В конце прошлого года я создал репозиторий, который стал вирусным со всеми шпаргалками, которые вы можете использовать для анализа данных.



В репо вы найдете шпаргалки по следующим вопросам:

Там вы найдете версии каждой шпаргалки в формате PDF и PNG. Не стесняйтесь загружать репо в виде zip-архива, чтобы получить всю информацию, и если вы найдете или создадите новый, который, по вашему мнению, будет полезен, создайте с его помощью запрос на перенос.

Спасибо за чтение. Надеюсь, это поможет вам найти путь к успеху в мире данных. Больше в будущем :)

Эта история опубликована в The Startup, крупнейшем предпринимательском издании Medium, за которым следят +440 678 человек.

Подпишитесь, чтобы получать наши главные новости здесь.