Посмотрим правде в глаза, в начале любого этапа нам нужны руки, чтобы помочь нам, если мы застряли на каком-либо этапе.

Эти типы рук могут иметь любую форму, например, это может быть какая-то статья на Medium, или какое-то видео на YouTube, или небольшой поиск в Google.

Я хочу, чтобы вы рассмотрели эту статью, как одну из тех раздач, которые помогут вам пройти через борьбу и преодолеть ее с помощью следующей стратегии.

Я собираюсь показать вам стратегию, которая фактически использовалась в отрасли на момент написания этой статьи, и это общий процесс, используемый для поиска многих решений в науке о данных.

Этот процесс известен как Межотраслевой стандартный процесс интеллектуального анализа данных, или, сокращенно, CRISP-DM.

Позвольте мне представить вам контуры этого процесса:

  1. Понимание бизнеса.
  2. Понимание данных.
  3. Подготовка данных.
  4. Моделирование данных.
  5. Оцените результаты.
  6. Развертывание.

Теперь давайте поговорим о них один за другим.

1. Деловое понимание:

На ранней стадии поиска решения возникает проблема.

Лучший способ представить проблему, описав ее с помощью правильных вопросов.

Вопросы здесь являются жизненно важными элементами, эти вопросы подобны компасу, который говорит нам, куда мы должны идти, а куда нет.

Понимание потребностей вашего бизнеса очень важно, чтобы определить правильное вдохновение для вопросов.

Позвольте мне дать вам несколько вопросов, которые могут быть использованы для вдохновения:

Новые лекарства лучше?

Как привлечь новых клиентов в компанию?

Как получить максимум удовольствия от путешествий? Коммуникация? Информация?

2. Понимание данных:

На этом этапе вам необходимо получить представление о данных, необходимых для ответа на ваши вопросы.

Но на самом деле компании сначала стремятся собрать как можно больше данных, чтобы позже определить, какие данные им нужно использовать, чтобы найти свои идеи.

Теперь вам нужно знать, какие функции в ваших данных связаны с вопросами, которые вы определили на первом этапе.

Зная, что это будет сделано с помощью EDA (исследовательского анализа данных), это означает, что вам нужно знать некоторые взаимосвязи или некоторые уникальные шаблоны в ваших данных, чтобы сделать скачок к ответить на ваши вопросы.

На этапе EDA вы получаете некоторую информацию с помощью некоторых визуальных элементов, используя известные библиотеки Python, такие как Matplotlib и Seaborn, чтобы рисовать такие вещи, как тепловые карты, гистограммы, диаграммы рассеяния и т. д.

3. Обработка данных:

Теперь, после того, как мы собрали наши данные и получили некоторое представление о визуальных элементах, чтобы узнать, какие функции играют наибольшую роль в прогнозировании решений для наших вопросов.

Время подготовить наши данные, и, если быть по-настоящему честным с вами, процесс спора — это самый трудоемкий процесс, он занимает примерно 80% процесса анализа данных.

На этом этапе мы подготавливаем наши данные, чтобы они хорошо вписывались в модель, проверяя следующие сценарии:

  • Поиск пропущенных значений (значения NaN) или нет.
  • Работа с категориальными переменными.
  • Нормализуйте или стандартизируйте количественные переменные (при необходимости).

Эти 3 сценария включают в себя много разговоров или письма, пока мы здесь, потому что каждый из них сам по себе является статьей.

Возможно, я опубликую несколько статей по этим 3 пунктам.

4. Моделирование данных:

Теперь давайте продемонстрируем, что у нас есть. Мои данные хорошо подготовлены, нет пропущенных значений, нет категориальных переменных.

Теперь мне нужно сопоставить эти данные с набором моделей, чтобы увидеть, какая из них может получить наилучшие показатели точности.

Используя некоторые методы, такие как K-Folding, GridSearchCV и даже систему голосования, чтобы добиться максимальной точности.

После применения данных к моделям ML или DL я получил результаты, верно?

Так что нам нужно их оценить, чтобы увидеть, кто из них лучше предсказывает мои вопросы и отвечает на них.

5. Оценка:

Мы можем выбрать несколько метрик для оценки нашей модели, но на самом деле это зависит от типа вашей проблемы.

Будь то регрессия, классификация или даже проблема кластеризации.

Существует множество показателей, таких как R-Square, матрица путаницы, точность, отзыв, >F1-Score или даже точность.

6. Развертывание:

После проверки и оценки нашей модели нам необходимо использовать результаты нашего анализа, развернув нашу модель для автоматизации задач.

Этими задачами могут быть показ соответствующей рекламы покупателю или рекомендация фильма и так далее.

Второй способ использования результатов анализа — сообщить о своих выводах из ваших данных, чтобы убедить других принять решение или совершить определенное действие.

Здесь вам нужно знать, с какой аудиторией вы пытаетесь общаться.

Для общения с другими программистами важно делиться своими идеями и кодом, для этого вы можете использовать GitHub.

Чтобы общаться с менеджерами и другими сотрудниками вашей компании, вам нужно убедить их в письменных идеях и визуальных материалах, для этого обычно используются панели мониторинга и электронные письма.

Вывод:

В конце концов, я надеюсь, что эта статья хоть как-то помогла вам, начать смотреть на любую проблему по-новому, так, чтобы вы могли найти решение в кратчайшие сроки.

Где вы знаете, вы все еще читаете, ПЕРЕЙДИТЕ в Kaggle и НАЧНИТЕ применять этот процесс!