Кеплер

Телескоп Кеплер был запущен в 2009 году на гелиоцентрическую орбиту, отстающую от Земли. Планируемый срок службы миссии составлял 3,5 года, но миссия продолжалась почти 10 лет. Цель состояла в том, чтобы сканировать часть неба, чтобы идентифицировать похожие на Землю обитаемые экзопланеты в области неба в галактике Млечный Путь. За время своего существования Kepler просканировал кривые блеска более 530 000 звезд и обнаружил 2360 экзопланет (обновлено 16.06.2020). Наконец, миссия Kepler была закрыта в 2018 году.

ТЕСС и не только

Спутник Transiting Exoplanet Survey Satellite (TESS) был запущен в 2018 году. Он был предназначен для поиска экзопланет транзитным методом на территории, в 400 раз превышающей площадь, охваченную миссией Kepler. TESS предоставит кандидатов для дальнейшего изучения космическим телескопом Джеймса Уэбба и другими телескопами. В отличие от предыдущих обзоров, которые обнаруживали гигантские экзопланеты, ожидается, что TESS обнаружит большое количество маленьких планет вокруг ближайших звезд на небе.

Для обнаружения экзопланет были предложены следующие миссии (не все из них будут использовать транзитный метод):

  • ХЕОПС
  • JWST (известный многим по аббревиатуре — космический телескоп Джеймса Уэбба)
  • ПЛАТОН
  • АРИЭЛЬ
  • WFIRST

Неоднородность источников данных

Частота дискретизации разных телескопов может быть разной. Набор данных кривой блеска Kepler имеет период времени выборки ~ 20,4 мс. Телескоп TESS имеет период выборки 2 секунды. Эта разница в периодах времени выборки приводит к разнице в количестве исторических данных, необходимых для проверки транзитной кривой блеска. Поэтому модель контролируемого машинного обучения, обученная на данных Kepler, не может быть применена к кривой блеска TESS.

Транзитный метод и «автоматизация» с помощью сплайнов (статистика)

Транзитный метод обычно используется в астрономии для идентификации кандидатов в экзопланеты. На следующем изображении показана суть метода транзита:

Чашеобразный провал на кривой блеска указывает на присутствие экзопланеты вокруг звезды. Это теоретическая версия; «идеальную» практическую версию после аугментации данных можно найти ниже:

Данные очень зашумлены даже после увеличения данных. Для людей, знакомых со статистическим моделированием — подгонка регрессии гистограммы или любого другого типа сплайна к этим данным требует тщательного выбора узлов, что требует ручного контроля — это не полностью автоматическое. Использование методов автоматического выбора узлов, таких как сглаживание сплайна (+ настройка гиперпараметров, перекрестная проверка), может привести к сглаженной оценке даже на расширенной кривой блеска. Это создает проблему — многие кандидаты будут проигнорированы.

Другой конец спектра — ручная пометка

На приведенной выше анимации показан относительно простой пример. Есть 2 операции:

  1. Несколько кистей на исходном изображении для обозначения области
  2. Увеличение и уточнение каждой области

Ручная сложность этой задачи составляет O(c * n), где n — количество наблюдаемых проходов, а c — среднее количество ручных операций (таких как кисти, щелчки и т. д.) за проход. Обычно c › n для большинства кривых блеска. Даже для простой задачи с n = 3 (как показано выше) на кривую блеска уходит несколько минут.

Полный масштаб проблемы

В галактике Млечный Путь миллиарды звезд. Есть миллиарды галактик, таких как Млечный Путь, каждая из которых имеет в среднем миллиарды звезд. Однако на Zooniverse есть всего несколько тысяч человек, которые поддерживают задачи. Поэтому проект выполняется поэтапно; несколько кандидатов на каждом этапе передаются другим проектам для подтверждения. НАСА сообщает, что на данный момент TESS выявила 1913 кандидатов, из которых 51 подтвержден (обновлено 16.06.2020). Это само по себе замечательное достижение.

Можно ли упростить эту задачу?

  1. Очистка, масштабирование и уточнение требуют много времени. Они необходимы, потому что текущий набор методов не устойчив к «зашумленному тегированию» — например: завершение задачи после зачистки (без масштабирования и уточнения) приводит к кривой блеска кандидата + кривой блеска по умолчанию родительской звезды.
  2. Можно ли это еще упростить? Части изображения могут быть автоматически очищены (с помощью обучения без учителя) и помечены как кандидаты. Этот процесс можно повторить для всех кривых блеска. Это нормально иметь мало ложных срабатываний, но алгоритм должен давать гораздо меньше ложных срабатываний. Теггерам, которые вручную маркируют, нужно только нажать кнопку «x» на каждой кисти или оставить кривую блеска без изменений (подтверждение того, что автоматическая идентификация кандидатов является точной). Кисть, масштабирование и уточнение по-прежнему будут доступны для создателей тегов, но здесь мы надеемся сократить их использование.
  • Если кривая блеска имеет «большое» количество маркеров, их одобрение и неодобрение (+ необязательное уточнение) можно использовать для шумоподавления зоны, в которой присутствует кандидат.
  • Если кривая блеска имеет «небольшое» количество маркеров, можно рассматривать набор кандидатов по умолчанию, помеченных алгоритмом.

Таким образом, неконтролируемое обучение может ускорить процесс идентификации кандидата. В конечном итоге каждая «зона» кривой блеска и каждый пользователь, который отмечает, получит оценку достоверности. Эта оценка меняется с каждым новым доступным примером «модифицированной» ручной маркировки. В конце концов, наиболее заслуживающие доверия кандидаты могут быть дополнительно изучены или использованы для построения модели контролируемого обучения.

Вывод

Я настоятельно рекомендую людям поддержать Planet Hunter TESS и другие проекты Zooniverse. Многие проекты требуют поддержки большого числа энтузиастов (например, читателей, попавших в этот раздел). Краудсорсинг в научных исследованиях будет расти в геометрической прогрессии, и я рекомендую читателям стать одним из первых членов этого растущего сообщества.

В предыдущем разделе статьи было представлено видение моего независимого исследования — неконтролируемое обучение и краудсорсинг для идентификации кандидатов в экзопланеты. В настоящее время я разрабатываю идею самостоятельно, поэтому прогресс был медленным. Я приветствую людей присоединиться ко мне.

Примечание. Этот проект всегда будет оставаться открытым.