Можем ли мы заставить машины читать музыку?

Я всегда с энтузиазмом приобретал знания о компьютерном зрении, и музыка всегда была важной частью моей жизни. Вместе они составляют большую исследовательскую задачу! Четыре месяца назад я поступил на четырехлетнюю степень доктора философии. программа. До сих пор это было безумное путешествие с точки зрения того, как много я узнал, и энтузиазма, чтобы узнать больше.

Задача исследования, которым я занимаюсь, - это оптическое распознавание музыки (OMR), а точнее, изучение того, может ли глубокое обучение помочь в улучшении характеристик текущих методов.

Чтобы вы немного поняли эту проблему, я попытаюсь прояснить, что такое OMR, используемые традиционные методы и основные проблемы, которые необходимо решить в будущем.

Предположительно, большинство из нас уже использовали Google Translate и его функцию перевода с камеры. Просто сфотографировав текст, мы экономим время и избегаем изучения китайского или других языков. Теперь давайте подумаем, как эта функция применима к музыке. Музыканты до сих пор пишут на нотных листах или на чистом листе бумаги. Однако, если они хотят поделиться своей музыкой, им придется записать ее в компьютер. Машиночитаемый музыкальный файл был бы более доступным. Поэтому мотивация этого исследования заключается в возможности позволить композиторам, музыкантам не только транскрибировать и редактировать музыку, фотографируя ноты, но и в конечном итоге делиться своими произведениями и играть их. OMR также поможет в статистике музыки и обеспечит возможность поиска нотных записей, аналогичную поиску текста.

Кальво-Сарагоса и др. дать очень четкое и всеобъемлющее определение OMR, назвав его областью исследования, а не простой проблемой.

Оптическое распознавание музыки - это область исследований, изучающая способы компьютерного считывания нот в документах.

Во второй части определения подчеркивается «компьютерно считываемая нотная запись в документах», поскольку она выполняется компьютерами (а не людьми), это не касается нотной записи. модели, но они основываются на этих знаниях. Кроме того, в нем подчеркивается информация, полученная этими системами, которую я объясню более подробно в следующих разделах.

Область исследований была основана в Массачусетском технологическом институте в конце 1960-х годов с использованием отсканированных нотных листов. Пионерами в этой области стали Ичиро Фуджинага, Николас Картер, Киа Нг, Дэвид Бейнбридж и Тим Белл. Их работа по-прежнему является отличной основой для сегодняшних исследований. OMR относится к другим областям, таким как поиск музыкальной информации, компьютерное зрение и анализ документов.

На основании проведенных исследований был сформирован типовой пайплайн, отражающий принятые подходы к решению задачи (см. Рисунок 1).

Обычно в этот конвейер поступают отсканированные изображения / изображения напечатанных / рукописных нот. Эти изображения затем подвергаются методам обработки изображений. Эти методы включают бинаризацию (черно-белое изображение), размытие, выравнивание (поворот) и помогают уменьшить шум на изображении.

Затем улучшенные изображения будут использоваться для распознавания музыкальных объектов. На этом этапе алгоритм попытается идентифицировать музыкальные объекты, такие как ключи, нотные головки, такты, оскорбления и другие. На этом этапе объекты являются примитивами и отделены от своего семантического значения.

Следовательно, на следующем этапе предпринимается попытка восстановить отношения, которые имели эти примитивы, вместе с семантическим значением. Этот подход восстанавливает семантику на основе правил грамматики, существующих в музыке.

Конечный результат может представлять музыкальное значение и описание партитуры во входных данных и быть машиночитаемым. Обычные форматы этих файлов могут быть MIDI, MusicXML, MEI и так далее.

Мы хотим изучить новые способы выполнения таких шагов с помощью глубокого обучения (DL). Большинство моделей DL построены на искусственных нейронных сетях. Эти сети вдохновлены биологическими нейронными сетями. Они состоят из множества слоев, имеющих так называемые узлы; они содержат один входной слой, один или несколько скрытых слоев и выходные слои. Чем глубже он идет, тем более сложные особенности модель может изучить и извлечь. Скрытые слои между ними обычно называют «черным ящиком». Это потому, что мы не можем легко понять, что происходит внутри, хотя новые исследования сосредоточены на этом.

Мы планируем начать с применения этого подхода на втором этапе OMR, то есть обнаружении музыкальных объектов. Для этого нам понадобится обширный набор данных, содержащий изображения нотных листов. В этом наборе данных также должна быть достоверная информация, чтобы модель могла на нем хорошо учиться. Часть данных, называемая тестовыми данными, не должна просматриваться моделью. Таким образом, мы можем оценить, насколько хорошо модель справляется с вещами, которых она никогда раньше не видела. Эта модель должна быть разработана с учетом характера эксперимента, входных и желаемых выходных данных. Мы также предлагаем стандартизировать форматы входных и выходных данных и их оценку.

Использованная литература:

А. Ребело, И. Фуджинага, Ф. Пашкевич, ARS Marcal, C. Guedes и JS Cardoso, «Оптическое распознавание музыки: современные и открытые вопросы», Int J Multimed Info Retr , т. 1, вып. 3, стр. 173–190, октябрь 2012 г. [Online]. Доступно: http://link.springer.com/10.1007/s13735–012–0004–6

Дж. Кальво-Сарагоса, Дж. Хаджи-младший и А. Пача, Понимание оптического распознавания музыки, arXiv: 1908.03608 [cs, eess], август 2019 г., arXiv: 1908.03608. [Онлайн]. Доступно: http://arxiv.org/abs/ 1908.03608

Паша, Александр, Ян Гайч и Хорхе Кальво-Сарагоса. «Базовый уровень для общего обнаружения музыкальных объектов с помощью глубокого обучения». Прикладные науки 8.9 (2018): 1488.