Наука о данных или как вы ее называете - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области», и здесь я покажу вам, почему.
Привет! Это снова я. Я обсуждал части того, что я собираюсь упомянуть здесь, в других статьях, но теперь я хочу дать несколько указаний о том, что не является наукой о данных и как не изучать ее.
Итак, начнем с основ.
Что такое Data Science?
Наука о данных - это не просто знание некоторых языков программирования, математики, статистики и «знание предметной области».
Время пришло. Мы создали новое поле или что-то в этом роде. В этой области есть что сказать и чему поучиться. Не имеет значения название, возможно, наука о данных - это всего лишь временное название для более крупной области, но научное изучение данных, получение из них аналитических сведений и способность предсказать что-то - это настоящее и будущее мира. .
Я сосредоточусь на определениях и предложениях, связанных с бизнесом, для науки о данных, может быть, они применимы для данной области в целом, но идеи в этой статье относятся к науке о данных для бизнеса.
Я собираюсь предложить три вещи:
- Наука о данных - это наука
- Есть ужасные способы изучать науку о данных
- Использование хорошо составленных шпаргалок может помочь вам систематически заниматься наукой о данных
Data Science - это наука
Я знаю, что это может быть спорным для некоторых людей, но оставайтесь со мной. Я хочу сказать, что наука о данных, конечно, связана с бизнесом, но это наука, в конце концов, или в процессе становления.
Я определил науку о данных до как:
[…] Решение проблем бизнеса / организаций с помощью математики, программирования и научного метода, предполагающего создание гипотез, экспериментов и тестов с помощью анализа данных и создания прогнозных моделей. Он отвечает за преобразование этих проблем в хорошо сформулированные вопросы, которые также могут дать ответ на исходную гипотезу творческим способом. Он также должен включать эффективное сообщение о полученных результатах и о том, как решение увеличивает ценность для бизнеса / организации.
Я излагаю здесь описание и определение науки о данных как науки. Я думаю, что было бы очень полезно, если бы науку о данных можно было описать как науку, потому что в этом случае каждый проект в этой области должен быть как минимум:
- Воспроизводимость: необходим для упрощения проверки работы и анализа других.
- Ошибка: наука о данных и наука не ищут истину, они ищут знания, поэтому каждый проект можно заменить или улучшить в будущем, и никакое решение не является окончательным.
- Сотрудничество. Специалисты по обработке данных не существуют в одиночку, им нужна команда, эта команда сделает все возможное для разработки интеллектуальных решений. Сотрудничество - это большая часть науки, и наука о данных не должна быть исключением.
- Креатив: большая часть того, чем занимаются специалисты по данным, - это новые исследования, новые подходы или различные решения, поэтому их среда должна быть очень творческой и простой в работе. Творчество имеет решающее значение в науке, это единственный способ найти решения трудных и сложных проблем.
- Соответствует нормативным требованиям. Сейчас существует множество нормативов в науке, не так много в области науки о данных, но в будущем их будет больше. Важно, чтобы проекты, которые мы строим, знали об этих различных типах правил, чтобы мы могли найти чистое и приемлемое решение проблем.
Если мы не будем следовать этим основным принципам, будет очень сложно вести надлежащую практику в области науки о данных. Науку о данных следует внедрять таким образом, чтобы процесс принятия решений был систематическим. Но об этом позже.
Как НЕ изучать науку о данных. Большой 3.
Если вы здесь, вполне вероятно, что вы изучаете науку о данных прямо сейчас, или вы прошли несколько MOOC или даже курсы на местах. Я не собираюсь здесь плохо говорить о платформах или плохих курсах, я думаю, мы чему-то можем научиться даже на худших курсах.
1. Видеть и видеть без практики
Если вы изучаете какой-либо предмет, связанный с наукой о данных, например математику, статистику, программирование или что-то в этом роде, и вы просто слушаете класс с таким лицом:
Что ж, вы зря теряете время. Науке о данных нужна практика. Все, что вы изучаете, даже если профессор ничего вам не говорит, попрактикуйтесь и попробуйте. Это фундаментально для действительно понимания вещей, и когда вы работаете в поле, вы будете делать много разных практических вещей.
Хорошие познания в статистике, математике и питоне не сделают вас успешным специалистом по анализу данных. Вам нужно больше, вам нужно овладеть своим ремеслом. Уметь использовать эти инструменты для решения бизнес-задач. Так что, если вы изучаете что-то новое и хотите понять это по-настоящему, найдите сценарий, в котором вы сможете применить это или поиграть с ним.
2. Безумное создание моделей
Мы получаем данные из «внешнего мира», и наше тело и мозг анализируют необработанные данные, которые мы получили, а затем мы «интерпретируем» их.
Что это за «толкование»? То, что мы узнали о том, как реагировать, думать, чувствовать и понимать из информации, которую мы получаем. Когда мы понимаем, мы декодируем части, из которых состоит эта сложная вещь, и преобразуем необработанные данные, которые мы получили вначале, во что-то полезное и простое.
Мы делаем это с помощью моделирования. Это процесс понимания «реальности», мира вокруг нас, но создание прототипа более высокого уровня, который будет описывать то, что мы видим, слышим и чувствуем, но это репрезентативная вещь, а не «реальная» или «реальная». вещь.
Так что подумайте, прежде чем делать это:
model_i_created_i_5_seconds.fit(X,y)
Моделирование - это что-то очень важное в области машинного обучения и науки о данных, но оно должно иметь цель. И вы должны понять их, прежде чем использовать. Теперь, что они предполагают на основе данных перед их обучением, понимают различные метрики, которые они используют для изучения, способы их оценки и многое другое.
Для этого я могу вам сказать, что нет ничего плохого в чтении документации таких библиотек, как Scikit-Learn:
Apache Spark:
Tensorflow:
И более. Они приведут вас к статьям, статьям и другим сообщениям в блогах, и в большинстве из них будут даже практические примеры того, как моделировать в машинном обучении и статистическом обучении.
Также в этой области есть отличные видеоролики, которые за считанные минуты переведут вас с нуля до героя, как и у моего друга Брэндона Рорера:
3. «Ага, я волк-одиночка. Я могу учиться и делать все сама »
Помните, что одна из характеристик, которые я предлагал ранее, заключается в том, что наука о данных - это область сотрудничества. Хорошо изучите это тоже!
Я не говорю здесь, что вам нужно начинать курс с лучшей подругой, но используйте то, что онлайн-платформы дают нам сегодня. У нас есть форумы, чаты, доски обсуждений и многое другое, где вы можете встретить людей, изучающих то же, что и вы. Будет намного легче учиться с большим количеством людей, и не бойтесь задавать вопросы.
Задайте столько вопросов, сколько вам нужно, чтобы что-то понять, и не успокаивайтесь, пока не сделаете это. Не преследуйте людей, но если вы попросите вежливо, большинство людей будут более чем счастливы вам помочь.
Вот отличные ресурсы (помимо тех, которые есть на МООК и курсах), чтобы найти людей, изучающих то же, что и вы:
Систематическая наука о данных со шпаргалками
Шпаргалки экономят ваше время, предоставляя знания о различных частях языка, концепциях или библиотеках. Некоторые шпаргалки также содержат гиперссылки на документацию и шпаргалки на уровне пакетов для наиболее важных пакетов в R, Python, Scala и других.
В конце прошлого года я создал репозиторий, который стал вирусным со всеми шпаргалками, которые вы можете использовать для анализа данных.
В репо вы найдете шпаргалки по следующим вопросам:
- Бизнес-наука
- Питон
- R
- Математика и вычисления
- "Большое количество данных"
- "Машинное обучение"
- Глубокое обучение
- SQL
- Визуализация данных
- Наука о данных в целом и другие
Там вы найдете версии каждой шпаргалки в формате PDF и PNG. Не стесняйтесь загружать репо в виде zip-архива, чтобы получить всю информацию, и если вы найдете или создадите новый, который, по вашему мнению, будет полезен, создайте с его помощью запрос на перенос.
Спасибо за чтение. Надеюсь, это поможет вам найти путь к успеху в мире данных. Больше в будущем :)