Как описано выше, расширение измерений — это простой метод создания плотной структуры данных высокой размерности для приложений машинного обучения. Это полезно для больших выборок данных, таких как большие последовательности, представленные в предыдущем примере. Данные больших изображений также можно преобразовать, чтобы сблизить связанные атрибуты.

Чтобы проверить эту гипотезу, используется набор данных, составленный из данных НАСА AIRS, чтобы проверить его способность находить точное представление набора данных. Данные состоят из серии сканирований температуры, давления, озона, облачности и других переменных. Данные отбираются с точностью до 1 градуса, в результате чего получается массив фигур 180X360. Затем этот набор данных можно преобразовать в массив формы (32,32,64).

Применение простого сверточного вариационного автоэнкодера дает возможность кодировать и декодировать данные. Чтобы лучше понять природу изученного представления и то, как оно может повлиять на выходные данные, к модели применяется скрытое блуждание. В результате получается серия изображений, которые реконструируют данные.

Однако в изученном измерении нельзя найти какой-либо конкретный шаблон или кластер, этот конкретный случай верен для данных о давлении.

Автокодирование других источников данных привело к слабой кластеризации различных образцов в изученном представлении.

Кроме того, скрытое блуждание показывает узнаваемые закономерности, которые меняются в том же направлении, что и ось кластеризации.

Два предыдущих примера показывают, как можно использовать один источник данных для обучения простого автоэнкодера и получения небольшого представления данных. Кроме того, изученное представление показывает, что оно изучает определенные изменения, связанные со временем, которые можно использовать для дальнейших приложений.

Конкретная временная шкала, полученная в результате этого анализа, может быть использована в качестве общей временной шкалы для улучшения моделирования погоды и окружающей среды. Однако конкретная идентичность такой шкалы в настоящее время не представлена ​​и не исследована.

Теперь у вас есть пример того, как использовать простую технику для анализа климатических данных. И как его расширить с минимальными изменениями в коде. Как всегда, полный код этого поста можно найти на моем github, нажав здесь. Пока живой пример на Kaggle можно найти здесь. Увидимся в следующем.