Мы часто говорим о науке о данных, но на самом деле не знаем, что все проекты Data Science работают. Итак, сегодня мы посмотрим, как работает любой проект Data Science. Как правило, любой проект Data Science состоит из 5 этапов.

  1. Обнаружение данных (получение данных)

Это самый первый шаг любого проекта Data Science - найти данные, и данные могут быть в любом формате, например, данные могут быть в структурированных данных (данные, которые являются высокоорганизованными и отформатированными) или это могут быть неструктурированные данные (данные не имеет заранее определенного формата или организации). В этом случае мы используем базы данных SQL, такие как MySQL, или базы данных NoSQL, такие как MongoDB. При этом мы просто собираем данные из всех доступных источников без какой-либо фильтрации данных.

На этом этапе хорошее понимание управления базами данных, поскольку здесь мы используем SQL для структурированной базы данных и NoSQL для неструктурированных данных.

2. Подготовка данных (очистка данных)

Как только у нас есть данные, собранные с помощью описанного выше процесса, теперь нам нужно очистить данные, поэтому на этом этапе мы выполняем очистку данных. Помните, что когда мы собирали данные, они были в формате мусора, например, некоторые поля будут отсутствовать или данные могут быть зашумленными. Поэтому в этой области мы очищаем и обрабатываем наши данные, чтобы их можно было использовать для дальнейшего анализа.

Здесь мы в основном заполняем пустые данные, используя математику (например, среднее значение, средний режим), а также удаляем ненужные поля. В основном мы используем программирование на Python или R для очистки данных, а при работе с большими данными мы используем Hadoop или Spark.

3. Анализ данных (математический режим)

Это этап, на котором мы собрали и отфильтровали наши данные. Теперь здесь мы применяем все различные типы математических уравнений, статистики, вероятности и различные модели машинного обучения и глубокого обучения для изучения наших данных.

Здесь мы выполняем различные типы выбора и удаления функций для анализа и повышения эффективности нашей модели. Это место, где происходит весь искусственный интеллект и машинное обучение для выявления скрытых закономерностей в наших данных. Если вы работаете с python, вы будете использовать Numpy, Matplotlib, Pandas, а если вы работаете с R, то вы будете использовать GGplot2 или швейцарский нож для исследования данных Dplyr.

4. Построение модели (претворение в жизнь)

Это этап, на котором мы выполняем уменьшение размерности (процесс преобразования набора данных с обширными измерениями в данные с меньшими измерениями) с помощью различных методов, таких как PCA (анализ главных компонентов), LDA (линейный дискриминантный анализ), обобщенный дискриминантный анализ GDA. .

На этом этапе мы анализируем и извлекаем из данных значимые бизнес-идеи. К данным применяются различные методы машинного обучения, чтобы определить модель машинного обучения, которая наилучшим образом соответствует потребностям бизнеса, а затем модель дорабатывается.

5. Связь

На этом этапе мы должны представить нашу работу по достижению результатов таким образом, чтобы мы могли ответить на бизнес-вопросы, которые вы задали при первом запуске проекта, вместе с практическими выводами, которые были получены с помощью науки о данных. Этот этап очень важен, поскольку здесь наши работы оцениваются другими, и если наша модель соответствует требованиям, то она выбирается, или же мы проводим прогнозную аналитику, а затем предписывающую аналитику, в которой мы можем научиться повторять хороший исход, либо предотвратить негативный исход.

На этом этапе проверяются не только технические навыки, но и наши бизнес-знания, поскольку вся работа, которую мы делаем, предназначена только для любого роста бизнеса, поэтому нам необходимо иметь сильные знания в области бизнеса, чтобы представить ваши выводы таким образом, чтобы ответить на бизнес-вопросы. вы намеревались ответить