Стэнфордская исследовательская серия: Большое цифровое пианино: мультимодальный перенос обучения звуку и осязанию

Авторы: Эрнесто Евгений Санчес Шайда ([email protected]), Илькью Ли ([email protected])

I. МОТИВАЦИЯ

Музыкальные инструменты развивались на протяжении тысячелетий, позволяя исполнителям воспроизводить практически все мыслимые музыкальные звуки различного тембра, высоты тона, громкости и длительности. Говоря о клавишных инструментах, современный механизм рояля является результатом ряда изобретений и усовершенствований и представляет собой очень сложную механическую систему. В последние десятилетия приобрела популярность новая область исследований по созданию цифровых инструментов, которые имеют такие же ощущения и звук, как и оригинальные акустические инструменты [1]. Достигнут частичный успех в разработке цифрового пианино с реалистичным звуком и осязанием: большинство устройств воссоздают основные свойства звука, однако можно заметить, что модели далеки от совершенства по следующим причинам.

В большинстве цифровых пианино используется синтез на основе сэмплов, то есть для каждой клавиши пианино записывается конечное число «семпловых тонов» реального акустического инструмента, а затем результирующий звук при нажатии клавиши представляет собой только один из семплов или их комбинацию. образцов. В результате бесконечное разнообразие тембров реального инструмента сводится к нескольким, соответствующим количеству предварительно записанных сэмплов на тональность.

Есть также фортепиано, которые используют математические модели акустического инструмента для воспроизведения звука без использования «семпловых тонов» [2]. Теоретически это позволяет воссоздать бесконечное разнообразие звуков оригинального инструмента. Тем не менее, модели требуют множества предположений о внутренней физике механизма действия фортепиано и о процессе производства звука, а также используют детали, разработанные вручную, которые не гарантируют эквивалентность механике реального инструмента.

Мы собираемся усовершенствовать описанные выше методы, используя машинное обучение для обучения физически обоснованной модели фортепиано, что позволит во время обучения воспроизводить новые, ранее не слышимые звуки в зависимости от того, как исполнитель играет на инструменте.

II. ПРЕДЫДУЩАЯ РАБОТА

Генерация реалистичных звуковых данных в форме точных волновых форм без использования созданных вручную агрегированных звуковых характеристик (таких как спектрограммы или кепстральные коэффициенты мел-частоты) стала возможной благодаря линии исследований, начатой с модели WaveNet [3]. Недавно был собран очень подробный набор данных NSynth [4] нот, сыгранных на различных музыкальных инструментах, что позволяет использовать такие модели, как WaveNet, для создания реалистичного звука музыкальных инструментов. Недавно была предложена улучшенная модель генерации музыкальных звуков [5], использующая генеративно-состязательные сети, чтобы сделать сгенерированные звуки еще ближе к реальным.

Хотя алгоритмы генерации звука значительно продвинулись за последние годы, существует сложность в использовании предложенных алгоритмов в реальных цифровых инструментах, поскольку упомянутые алгоритмы касаются только одного аспекта: создания реалистичного звука. Однако очень заметной частью игры на инструменте является связь между действиями исполнителя и реальным создаваемым звуком. В то время как существующие модели поддерживают простое обусловливание, позволяющее генерировать звуки различной громкости и тембра, точная связь между физическими действиями исполнителя и результирующим звуком не изучалась в контексте моделей генерации звука искусственным интеллектом.

В этой работе мы собираемся устранить этот пробел, представив мультимодальную модель, которая анализирует действия исполнителя и результирующий звук совместно, позволяя генерировать соответствующий звук на основе того, как исполнитель играет на инструменте. Дополнительно мы разрабатываем метод переноса обучения, который позволяет один раз выучить модель на очень точном оборудовании и высококачественных акустических инструментах, а затем применить полученную модель на разных вариантах целевых инструментов разной цены и качества, стремясь получить максимально возможное звук и ощущение оригинального инструмента во всех случаях. В то время как методы могут быть применены к любому музыкальному инструменту, на котором можно зафиксировать действия исполнителя и результирующий звук, в этой работе мы сосредоточимся на создании реалистичного цифрового пианино, которое является одним из наиболее часто используемых цифровых инструментов.

III. ПОСТАНОВКА ПРОБЛЕМЫ

Мы рассматриваем множественные модальности, которые всегда присутствуют в музыкальном исполнении. Начнем с «прикосновения» — способа игры исполнителя и «звучания» — получившейся музыки, которую слышно. Каждая модальность может быть представлена в виде временного ряда, содержащего информацию о том, что происходит в каждый момент времени. Для фортепиано модальность «прикосновения» состоит из физического состояния всех клавиш, а именно положения или скорости как функции времени. Кроме того, могут быть записаны и другие элементы управления, такие как положение или скорость педалей пианино.

Принимая во внимание только эти две модальности, можно создать генеративную модель, если есть возможность сделать следующее:

Точно записывайте прикосновения и звук на этапе обучения на эталонном инструменте.
Точно записывайте прикосновения во время выступления или этапа тестирования.
Убедитесь, что значение записанного прикосновения (которое можно описать ожидаемым звуком, который будет слышен от такого прикосновения) на эталонном инструменте и на исполнительском инструменте одинаково.

Заметим, что в этой постановке возникает ряд трудностей:

Во-первых, для записи данных с реального прибора мы хотим применить неинвазивное измерение, чтобы предотвратить разрушение или деградацию инструментов при проведении исследований. Это означает, что мы не собираемся модифицировать акустический инструмент и записывать данные изнутри, или прикреплять к инструменту произвольные устройства с помощью клея или использовать другие, возможно, необратимые методы.
Существует несколько способов измерения прикосновения с помощью датчиков, которые можно разделить на контактные и бесконтактные. Согласно ранее заявленным требованиям, для сбора обучающих данных на реальном приборе мы будем использовать бесконтактные методы. Наиболее эффективным методом в этой группе является лазерная дальнометрия [6]. Метод очень точен, но применим только в лабораторных условиях: произвольные движения рук могут блокировать лазерный луч и мешать измерениям. В заключение, мы собираемся использовать лазерное измерение расстояния, но только для сбора обучающих данных для модальности «прикосновение».
Для этапа тестирования или производительности мы хотим применить надежный метод измерения данных, чтобы не давать исполнителям специальных инструкций, и просто позволить им использовать инструмент, как обычно. Это предотвращает использование бесконтактных методов измерения снаружи прибора. В связи с этим на этапе испытаний мы рассматриваем возможность применения контактных методов измерения, а также применения модификаций цифровых приборов для облегчения измерения.

Эти соображения показывают, что возникнет проблема различий в данных «прикосновения» на этапах обучения и тестирования, что потребует использования методов передачи обучения. Мы предлагаем решение этой проблемы путем добавления новых модальностей: Вместо создания модели «Прикосновение → Звук» мы создадим условную модель «Прикосновение → Промежуточная модальность 1 → Промежуточная модальность 2 → … → Звук». Либо прикосновение, либо одна из промежуточных модальностей может быть недоступна на этапах обучения или тестирования — в этом случае мы будем обучать вспомогательные модели для заполнения отсутствующих модальностей; и после заполнения недостающих данных мы сможем полностью перенести обучение с ввода на этапе обучения на любой ввод, который будет доступен на этапе тестирования, что позволит воспроизводить эквивалентные звуки.

IV. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ

Мы рассматриваем следующие входные временные ряды, которые можно записывать либо при обучении, либо при тестировании, либо на обоих этапах:

Данные лазерного датчика расстояния. Запись таких данных возможна как для источника (акустического), так и для цели (цифровой прибор). Однако на этапе тестирования данные не будут доступны для цифрового прибора. Мы оцениваем два сенсора для сенсорного моделирования:

а.) Полупроводниковый миниатюрный лазерный датчик расстояния VL53L0X. Он имеет частоту дискретизации по умолчанию 33 измерения в секунду и отклонение измерений около 2% от измеренного значения. Существует также обновленная версия под названием VL53L1X, которая поддерживает частоту дискретизации до 50 Гц.

b) Простой лидар: RPLIDAR A1M8, который также можно использовать в качестве лазерного датчика расстояния с фиксированным положением, отключив вращение головки датчика вручную. Он имеет частоту дискретизации 2 тысячи измерений в секунду и отклонение измеренного значения 1%.

2) Датчик акселерометра и гироскопа: миниатюрные датчики могут быть прикреплены к клавишам цифрового пианино и измерять положения со скоростью до 1000 измерений в секунду.

3) Магнитные датчики на эффекте Холла: такие миниатюрные датчики также могут быть прикреплены к клавишам цифрового пианино, позволяя измерять расстояние до магнита, который необходимо прикрепить к корпусу цифрового пианино.

4) Датчики приближения внешней освещенности: такие датчики обеспечивают бесконтактное измерение небольшого расстояния менее 10 миллиметров. В отличие от лазерных датчиков, такие датчики имеют меньшую стоимость и могут быть установлены внутри цифрового пианино для измерения расстояния до каждой клавиши.

5) MIDI-сенсоры (записывающие приблизительную скорость нажатия клавиш в момент удара по клавише фортепиано), которые уже присутствуют в большинстве цифровых фортепианных инструментов. Это позволяет иметь эталонные данные датчика. Однако MIDI-датчики не записывают данные непрерывно, они интегрируют данные и просто обеспечивают одно измерение скорости для каждого нажатия клавиши, поэтому они не позволяют точно моделировать касание.

Мы сравнили два измерительных решения для использования с акустическим фортепиано в Таблице 1. Поскольку измерения рояля выполняются только один раз и могут быть повторно использованы на нескольких цифровых устройствах, для этой части работы выгодно использовать высокоточное оборудование. Поэтому продолжим оставшиеся эксперименты с датчиком расстояния РПЛидар А1М8. Для промежуточного варианта мы решили сузить наш выбор до акселерометра и датчиков MIDI по следующей причине: датчики MIDI присутствуют почти во всех цифровых пианино, которые имеют выход MIDI и могут использоваться без добавления внешнего оборудования; датчики акселерометра обычно имеют встроенный гироскоп, который позволяет регистрировать угловую скорость, которая является точным механическим параметром, необходимым для моделирования динамики ключа. Напротив, световые и магнитные датчики измеряют механику только косвенно: существует нелинейная связь между угловым положением и скоростью и результирующим измерением магнитного поля и интенсивности света. Окончательное расположение датчиков для моделирования одной клавиши фортепиано показано на рисунке 1 и состоит из лидара, который также используется с роялем, акселерометра, прикрепленного к клавише, и внутренних MIDI-датчиков цифровой клавиатуры.

V. ПЕРЕДАЧА МОДЕЛЕЙ ОБУЧЕНИЯ

Физическая установка, описанная в предыдущем разделе, показывает необходимость моделирования следующей последовательности зависимостей:

Данные лазерного датчика (доступны на цифровом и акустическом пианино во время обучения; недоступны во время тестирования) → {Акселерометр, данные MIDI-сенсора} (доступны только на цифровом пианино во время обучения и тестирования) → Звук (доступно только на реальном пианино во время обучения и тестирования; необходимо воссоздать на цифровом пианино)

Хотя в идеале мы должны генерировать звук на основе данных лазерного датчика во время выступления, этот наиболее точный метод измерения недоступен на этапе тестирования. Поэтому мы сначала преобразуем данные лазерного датчика в соответствующие (предсказанные) данные от других датчиков, которые будут доступны на этапе тестирования. Эти сенсорные данные доступны только на цифровом пианино, поскольку они включают контактное измерение. В то же время реальные звуковые данные доступны только для акустического пианино. Это диктует необходимость создания двух больших наборов данных и обучения двух классов моделей машинного обучения:

На цифровом пианино: возьмите «Данные лазерного датчика» в качестве входных данных и предскажите «Данные других датчиков, включая MIDI, акселерометр».
Имея такую модель, примените ее к акустическому фортепиано, предсказав данные других датчиков, которые недоступны для акустического фортепиано.
На акустическом фортепиано возьмите прогнозируемые данные других датчиков в качестве входных данных и обучите модель машинного обучения прогнозировать звук на их основе.
Примените эту модель к цифровому пианино, чтобы получить реалистичный звук от других датчиков, присутствующих только на цифровом пианино.

Общий набор данных будет очень мультимодальным и будет содержать как минимум два основных временных ряда (данные лазерного датчика, результирующий звук) и множество вспомогательных временных рядов (промежуточные датчики, присутствующие только на цифровом пианино).

VI. МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

А. Звуковые модели

Начнем с изучения самой большой части данных: звука музыкальных инструментов. Мы записали звучание двух нот (средние клавиши C и G) цифрового и акустического пианино, стараясь записать как можно больше различных способов касания клавиш пианино. Это привело к исходному набору данных, который можно расширить до октавы (8–13 клавиш) или полного диапазона фортепиано (88 клавиш). В следующих двух разделах мы проводим эксперименты со звуковыми данными только для первоначального анализа и понимания данных.

B. Контролируемая классификация между цифровым и акустическим инструментом

Мы рассмотрели задачу предсказать, какая нота прозвучала из акустического или цифрового пианино. Мы использовали необработанное представление 2-секундного звука, который представлял собой записи нот C4 и G4 как на рояле, так и на цифровом пианино Yamaha YDP-141, и предварительно обработали записи, чтобы нормализовать звук и сократить тишину. Всего было 132 записи с частотой дискретизации 44 100 Гц, что позволяет получить общее пространство признаков из 132 сэмплов размерностью 2*44 100.

Затем, применяя двоичную систему маркировки для цифровых и акустических данных, мы использовали нейронную сеть многослойного персептрона (MLP) со скрытым слоем из 100 единиц и ReLU в качестве функции активации для классификации. При разделении тренировочного тестирования 80–20 результирующая точность тестирования составила 81%. Это дает уверенность в способности моделей различать акустические и цифровые звуки, что позволяет проводить дальнейший анализ данных.

C. Неконтролируемое обучение звуковому представлению

Мы применили алгоритм T-SNE [7] к собранному исходному набору данных из двух нот на двух инструментах (рис. 2). Выученное представление действительно показывает, что цифровые и акустические инструменты различны и разделимы в скрытом пространстве, а также что разные ноты имеют различимые характеристики. Эти первоначальные результаты показывают, что большая задача этого проекта также выполнима, и мы собираемся приступить к сбору оставшихся данных датчиков и обучению основных моделей для генерации звука.

D. Нейронная сеть с прямой связью и регрессионная модель для предсказания промежуточной модальности

Мы начинаем реальную задачу по преобразованию данных касания акустического фортепиано в общий формат с моделирования взаимосвязи датчика Laser MIDI с использованием нейронной сети MLP и регрессионной модели. Во-первых, на цифровом пианино ноты C4 и G4 нажимались с разной силой и, следовательно, скоростью нажатия клавиши, а лазерный датчик измерял смещение клавиши во времени. Соответствующие MIDI-данные скорости нажатия клавиш также были записаны со временем, а затем нормализованы путем деления на 127 (только для регрессионной модели, поскольку мы хотим сохранить дискретные значения для полиномиальной классификации MLP).

Затем, после объединения данных C и G, одномерные временные ряды данных как для положения лазера, так и для MIDI-скорости были преобразованы в двумерные массивы, в которых каждая строка представляла данные за 20 миллисекунд со сдвигом на 10 миллисекунд от первая запись строки и первая запись следующей строки. Полученное пространство функций было дополнительно обработано для удаления любых частей, в которых значение MIDI не изменяется с учетом 20-миллисекундного кадра, поскольку в противном случае прогнозирование невозможно. Наконец, последнее значение скорости MIDI на строку использовалось в качестве выходного пространства, так что предсказание идет от L (t−n : t) → M (t), где L (t) и M (t) являются Лазерные и MIDI-данные, соответственно, где n представляет 20 миллисекунд (функции 882).

Затем набор данных был передан в две модели: нейронную сеть MLP с одним скрытым слоем из 100 единиц и простую модель гребневой регрессии с потерей среднеквадратичной ошибки. Мы ожидаем, что модель гребневой регрессии будет работать лучше, чем MLP, поскольку с учетом истинной метки (скорости) полиномиальная потеря softmax MLP будет наказывать за неправильную классификацию скорости независимо от того, насколько близка прогнозируемая скорость к истинной. С другой стороны, регрессионная модель не только позволяет прогнозировать значения скорости, которые могут отсутствовать в тренировочных данных, но и намного меньше наказывает прогноз, близкий к истинному значению, чем прогноз, который находится дальше.

Как и ожидалось, сеть MLP дала точность тестирования 45%, тогда как гребневая регрессия дала ошибку 26%. Хотя регрессионная модель работает лучше, ее ошибка слишком велика; Затем мы приступаем к рекуррентной нейронной сети (RNN), чтобы прогнозировать MIDI с учетом данных лазера.

E. Рекуррентная сеть для предсказания промежуточной модальности

В отличие от сетей с прямой связью, RNN содержат петлю обратной связи, которая принимает предыдущий выход yt-1 в момент времени t - 1 в качестве входа в момент времени t вместе с некоторым исходным входом xt. Таким образом, можно думать, что RNN имеют память, в которой последовательная информация используется для понимания корреляций в событиях, зависящих от времени, чтобы помочь в более точном прогнозировании. Более того, RNN имеют возможность прогнозировать «многие ко многим», что здесь желательно, поскольку мы прогнозируем полный временной ряд.

В нашем случае мы используем модель RNN с двумя сложенными слоями долговременной кратковременной памяти (LSTM) с 10 нейронами в каждом слое, с потерей среднеквадратичной ошибки и rmsprop в качестве оптимизатора. Вместо разделения данных с помощью сдвигового окна как пространства признаков мы просто делим данные на 2-секундные длины, что дает нам 128 входных векторов. Кроме того, чтобы сохранить последовательный характер прогнозов, мы не разделяем данные обучения и тестирования случайным образом. Таким образом, потери смогли приблизиться примерно к 0,086 всего за несколько эпох (4–6).

Однако мы замечаем, что RNN не может точно предсказать такой быстро меняющийся сигнал, как прямоугольная волна в MIDI, которую трудно аппроксимировать гладкой функцией. Начнем с разделения задачи на две части: предсказание начала событий MIDI и предсказание фактического значения события MIDI.

Поэтому мы внедрили архитектуру с рис. 3, чтобы обеспечить дополнительный контроль над сетью. В сети по-прежнему есть слой LSTM или несколько слоев LSTM, которые затем подключаются к двум отдельным выходным слоям: слой прогнозирования «двоичных событий» имеет сигмовидную функцию активации для вывода вероятности того, что событие происходит в данный момент. Этот слой обучается с использованием перекрестной энтропийной потери, чтобы максимизировать вероятность правильного прогнозирования времени начала события. А слой «свойства события» имеет линейную активацию и обучается с потерей среднеквадратичной ошибки, чтобы свести к минимуму отклонения в предсказанных свойствах события. Затем два вывода вручную объединяются на слое постобработки для вывода «свойств события» только в том случае, если бинарная модель предсказала наличие события в данный момент. Такое разделение задачи на две подзадачи позволяет добиться более быстрой сходимости.

На рисунке 4 мы представляем результирующие временные ряды, сгенерированные моделью. Модель способна правильно синхронизировать события, но по-прежнему имеет трудности с получением точных значений, которые мы собираемся решить путем сглаживания в следующем разделе.

Фильтр Ф. Калмана для извлечения признаков

Несмотря на то, что вся информация доступна в необработанных данных, в предыдущих разделах мы видели ряд трудностей при обучении нейронных сетей. Чтобы помочь сетям решить последнюю задачу, мы включим предварительные знания о базовой физической модели клавиши пианино. Клавиша фортепиано представляет собой систему только с одной степенью свободы и может быть полностью охарактеризована угловым положением клавиши. Кроме того, мы можем вычислить соответствующую скорость и ускорение для моделирования динамического поведения. Поскольку датчики предоставляют зашумленные данные, а также не предоставляют все три параметра одновременно, мы можем использовать фильтр Калмана [8] для получения надежной оценки

ключевая динамика. Это преобразует один необработанный признак — положение в три сглаженных признака — положение, скорость и ускорение.

Мы замечаем, что скорость, смоделированная фильтром Калмана (рис. 5), позволяет предсказывать значения MIDI в начале событий MIDI только с помощью линейного преобразования (что ожидается, поскольку теперь оба датчика измеряют скорость), что позволяет системе работать без обращения к RNN. или просто использовать RNN для исправления возможных нелинейностей.

Мы также замечаем, что теперь у нас есть более продвинутая система датчиков по сравнению с простыми датчиками Synthesizer Midi. Поэтому одной из причин получения низкой точности предсказания сигнала Midi может быть то, что наземная правда далека от совершенства. В частности, существует субъективная разница в том, что на самом деле означает скорость нажатия клавиш на цифровом и акустическом фортепиано. Выполнение субъективного теста, измеряющего средние баллы мнений и сравнивающего различные способы интерпретации скорости, должно дать ответ на вопрос, можно ли использовать MIDI-сенсоры цифрового пианино в качестве эталона.

VII. ГЕНЕРАЦИЯ ЗВУКА

В то время как для полной реализации описанных идей требуются две модели: для прикосновения, описанного в предыдущих разделах, и для звука, в этой работе мы будем использовать существующую модель для генерации звука, обусловленную предсказанными данными прикосновения. Мы используем реализацию TensorFlow для WaveNet [9] и сначала тренируемся на записях акустического фортепиано G4 и C4.

Модель генерирует новую выборку в момент времени t путем максимизации логарифмической вероятности совместного распределения вероятностей потока данных до момента времени t - 1. Это делается с помощью произведения условных распределений каждого элемента в указанном выше временном диапазоне, используемого как распределение softmax после обработки значений данных с помощью команды Mu-law для сохранения звукового динамического диапазона и в то же время уменьшения требуемых битов на выборку до 8 бит.

В этой реализации модель имеет 9 скрытых расширенных сверточных слоев, при этом расширение увеличивается в 2 раза по мере продвижения по слоям, что позволяет экспоненциальный рост рецептивного поля с глубиной. Учитывая 1200 шагов, потери при обучении (перекрестная энтропия между выходными данными для каждого временного шага) были уменьшены с 5,677 до 1,1. Мы отмечаем, что потери могут быть уменьшены еще больше с увеличением времени, и существуют другие реализации распараллеливания, которые не были протестированы на момент написания.

С точки зрения фактической генерации звука, обработка заметки может быть выполнена вручную путем дифференциации самого имени исходных данных; однако мы еще не смогли успешно обусловить скорость MIDI. Это служит хорошим направлением для будущей работы по улучшению генерации звука с включенным кондиционированием.

VIII. ОЦЕНКА И ВЫВОДЫ

Мы провели объективную оценку, вычислив значения потерь на тестовом наборе для удержания, а результаты представлены в соответствующих разделах. Фильтр Калмана показал хорошую производительность в сочетании с RNN для предсказания промежуточной модальности. И Wavenets предоставили первоначальные результаты по генерации звука, которые, однако, должны быть улучшены для создания реалистичного звука.

Субъективно, система находится в начальной стадии показа результатов, которые могут быть использованы музыкантами. Мы считаем, что представленная идея является новой и практически полезной, и определенно требуется дополнительная работа, чтобы сделать модели применимыми на серийных устройствах.

Исходный код этой работы и собранные наборы данных доступны по адресу https://github.com/ernestosanches/AIPiano.

IX. БЛАГОДАРНОСТИ

Мы хотели бы поблагодарить Ананда Авати из Стэнфордского университета за полезные обсуждения, касающиеся передачи знаний, и профессора Елену Абалян из Университета Сувона за руководство по музыкальным аспектам работы.

X. ВЗНОСЫ

Ernesto Evgeniy Sanches Shayda — идея, сбор данных, моделирование сенсорных данных под наблюдением.
Илькью Ли — анализ исходных данных и моделирование генерации звука

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРА

[1] Энди Хант и Марсело М Вандерли. Сопоставление параметров исполнителя с механизмами синтеза. Организованный звук, 7(2):97–108, 2002.

[2] Balazs Bank и Juliette Chabassier. Цифровые пианино на основе моделей: от физики к синтезу звука. Журнал обработки сигналов IEEE, 36(1):103–114, 2019 г.

[3] Аарон Ван Ден Оорд, Сандер Дилеман, Хейга Зен, Карен Симонян, Ориол Виньялс, Алекс Грейвс, Нал Калхбреннер, Эндрю В. Старший и Корай Кавуккуоглу. Wavenet: генеративная модель для необработанного звука. СЮВ, 125, 2016.

[4] Джесси Энгель, Синджон Резник, Адам Робертс, Сандер Дилеман, Дуглас Эк, Карен Симонян и Мохаммад Норузи. Нейронный аудиосинтез музыкальных нот с автоэнкодерами wavenet, 2017.

[5] Джесси Энгель, Кумар Кришна Агравал, Шуо Чен, Ишаан Гулраджани, Крис Донахью и Адам Робертс. Gansynth: Состязательный нейронный аудиосинтез. Препринт arXiv arXiv: 1902.08710, 2019.

[6] Маркус-Кристиан Аманн, Тьерри М. Бош, Марк Лескюр, Ристо А. Миллилаэ и Марк Риу. Лазерная дальнометрия: критический обзор необычных методов измерения расстояний. Оптическая техника, 40(1):10–20, 2001.

[7] Лоренс ван дер Маатен и Джеффри Хинтон. Визуализация данных с помощью t-sne. Журнал исследований машинного обучения, 9 (ноябрь): 2579–2605, 2008 г.

[8] Рудольф Эмиль Кальман. Новый подход к задачам линейной фильтрации и прогнозирования. Journal of Basic Engineering, 82(1):35–45, 1960. [9] https://github.com/ibab/tensorflow-wavenet.