Мой первый проект в области науки о данных (1/5)

Это первая из серии сообщений, в которых описывается мой самый первый проект в области науки о данных, разработанный во время моей докторской диссертации по астрономии еще в 2015 году.

Вопрос, на который нужно ответить:

При большом количестве фотометрических наблюдений сверхновых звезд (наблюдение AKA с низким информационным содержанием) возможно ли воспроизвести их классификацию на основе спектроскопии (наблюдение AKA с высоким информационным содержанием контент) с высокой степенью уверенности?

Теперь мне нужно объяснить вам несколько вещей, прежде чем погрузиться в описание разработанного мной метода:
1. Supernove: это имя, данное взорвавшимся звездам; За время своей жизни звезда проходит различные стадии эволюции (как… все в природе) и в конце концов, в зависимости от ее массы, взрывается.
2. Фотометрия и спектроскопия: это два методы, с помощью которых мы измеряем свет, исходящий от астрономических объектов; фотометрия измеряет количество света, которое мы получаем от сверхновой (в данном случае), подобно тому, как собирают воду в ведро. Спектроскопия - более сложный метод, который позволяет нам узнать, какие химические элементы были в сверхновой. Таким образом, спектроскопия дает гораздо больше информации о сверхновой в отношении фотометрии.
3. Спектроскопическая классификация: Я не буду вдаваться в подробное описание, поскольку это будет слишком долгий обходной путь; Здесь нам нужно знать, что такая классификация основана на методе спектроскопии, который дает много информации о сверхновой.

Проблема со спектроскопией в том, что она очень дорога и требует много времени, а фотометрия намного дешевле и быстрее; поэтому астрономы сказали примерно следующее:
Давайте понаблюдаем за сверхновой с помощью фотометрии, мы сможем обнаружить гораздо больше из них таким образом с меньшими затратами; тогда мы найдем способ их классифицировать без необходимости спектроскопического подтверждения и извлечем из этого хорошие научные данные.

Набор данных, который я использовал для ответа на вопрос, был смоделирован и состоял из 20K фотометрических наблюдений сверхновых в 4 фотометрических полосах; оно взято из статьи Кесслера и др. (2010) Задача фотометрической классификации сверхновых.

В следующих статьях я перейду к описанию техник, которые я использовал в проекте:
1. Гауссовские процессы для регрессии
2. Карты диффузии для уменьшения размерности пространства параметров
3. Случайный лес для построения модели классификации

Следующая запись (Набор данных, подход и предварительная обработка)…