Сокол 9

Основная цель этого проекта — предсказать, успешно ли приземлится первая ступень Falcon 9. SpaceX настолько гордится тем, что может повторно использовать первую ступень запуска ракеты, что рекламирует на своем веб-сайте, что их запуски ракет стоят 62 миллиона, в то время как другие провайдеры стоят более 165 миллионов. Большая часть этой экономии связана с возможностью повторного использования первой ступени. Если мы сможем определить, приземлится ли первая ступень, мы сможем определить стоимость запуска. Эта информация может быть использована, если альтернативная компания хочет участвовать в торгах против SpaceX на запуск ракеты.

Это подводит нас к нашему главному вопросу, на который мы пытаемся ответить: при заданном наборе характеристик запуска ракеты Falcon 9 будет ли первая ступень ракеты успешно приземляться?

Используемая методология будет включать в себя куколку данных, обработку и предварительную обработку данных, исследовательский анализ данных, визуализацию данных и, наконец, прогнозирование машинного обучения.

В ходе нашего исследования результаты нашего анализа показывают, что существуют некоторые особенности запусков ракет, которые имеют корреляцию с успешными или неудачными пусками.

В конце мы приходим к выводу, что дерево решений может быть лучшим алгоритмом машинного обучения для этой проблемы.

Полный отчет о проекте вы можете найти в PDF-файле в моем репозитории git-hub.

Ссылка на гитхаб: https://github.com/Hrishikeshkanojiya/spacex

Ссылка на LinkedIn : https://www.linkedin.com/in/hrishikesh-kanojiya-80a033206

Оглавление:

Проект включает в себя восемь ноутбуков Jupyter, информационную панель, одну презентацию Powerpoint и один PDF-файл (такой же, как PPT):

  1. API сбора данных Space-X
  2. Сбор данных с помощью веб-скрейпинга
  3. EDA с Pandas и Numpy
  4. ЭДА с SQL
  5. EDA с визуализацией данных
  6. Аналитика интерактивных карт с помощью Folium
  7. Панель управления Space-X
  8. Развертывание информационной панели
  9. Прогноз машинного обучения Space-X

1. API сбора данных Space-X

  • Используемый API находится здесь.
  • API предоставляет данные о типах запусков ракет, выполненных SpaceX.
  • Данные очищаются и экспортируются в CSV для анализа.

2. Сбор данных с помощью парсинга веб-страниц

  • Мы выполняем веб-скрапинг, чтобы собрать исторические записи о запусках Falcon 9 со страницы Википедии.
  • Данные очищаются и экспортируются в CSV для анализа.

3. Исследовательский анализ данных

Мы проводим некоторый исследовательский анализ данных (EDA), чтобы найти некоторые закономерности в данных и определить, что будет меткой для обучения контролируемых моделей.

В наборе данных есть несколько разных случаев, когда ракета-носитель не приземлилась успешно. Иногда предпринимались попытки приземления, но они терпели неудачу из-за аварии; например, True Ocean означает, что результат миссии был успешно приземлен в определенном районе океана, а False Ocean означает, что результат миссии был неудачно приземлен в определенном районе океана. True RTLS означает, что результат миссии был успешно приземлен на наземную площадку. False RTLS означает, что результат миссии был неудачно приземлен на наземную площадку. True ASDS означает, что результат миссии был успешно приземлен на дрон-корабль. False ASDS означает, что результат миссии был неудачно приземлен на дрон-корабль.

Пример успешной посадки:

Пример неудачной посадки:

4. Исследовательский анализ данных с помощью SQL

Мы используем SQL для запросов к базе данных и отвечаем на несколько вопросов о данных, таких как:

  • Названия уникальных стартовых площадок космической миссии
  • Общая масса полезной нагрузки, которую несут ракеты-носители, запущенные НАСА (CRS).
  • Средняя масса полезной нагрузки ракеты-носителя версии F9 v1.1

Некоторые из используемых операторов или функций SQL включают SELECT, DISTINCT, AS, FROM, WHERE, LIMIT, LIKE, SUM(), AVG(), MIN(), BETWEEN, COUNT() и YEAR().

5. Исследовательский анализ данных с визуализацией данных

  • Мы используем библиотеки Python Matplotlib и Seaborn для визуализации взаимосвязей, существующих в наборе данных.
  • Техника «Горячее кодирование» используется для создания переменных двоичной категории как часть разработки признаков.

Визуализация вероятности успеха на каждой орбите:

Класс 1 = Успех
Класс 0 = Ошибка

6. Аналитика интерактивных карт с Folium

В этой тетради выполняем следующее:

  • Отметить все стартовые площадки на карте
  • Отметьте успешные/неудачные запуски для каждого сайта на карте
  • Рассчитайте расстояния между стартовой площадкой и ее близостью

Все это делается с помощью Folium, картографической библиотеки Python, которая позволяет создавать интерактивные карты.

Запуск сайтов:

Успешные или неудачные запуски для каждого сайта:

Расстояния от стартовой площадки, такие как железнодорожная линия, главная дорога и побережье:

7. Приборная панель Space-X

Ссылка на панель инструментов:

«https://hrishikeshkanojiya-dashboard.onrender.com/».

Нажмите на ссылку, и панель управления откроется в вашем браузере.

8. Прогнозирование машинного обучения Space-X

В этой тетради выполняем следующее:

  • Создание столбца для «Класса»
  • Стандартизация данных
  • Разделение данных для обучения и тестирования
  • Найдите лучший гиперпараметр
  • Оценка матричной модели

Выводы:

  • Анализ показал, что существует положительная корреляция между количеством полетов и процентом успешных полетов, поскольку показатель успешных полетов с годами улучшился.
  • Результаты анализа разведывательных данных (EDA) показали, что вероятность успешных посадок ракет SpaceX Falcon 9 составляет 66%.
  • Orbit ES-L1, GEO, HEO и SSO имеют 100%-й показатель успеха.
  • Я развертываю эту панель управления на службе веб-хостинга рендеринга для большего удобства.
  • За исключением дерева решений, три другие модели, такие как K ближайших соседей, машина опорных векторов и алгоритмы машинного обучения логистической регрессии, обеспечивают одинаковую точность 83%.