Народная музыка представляет собой отличную песочницу для исследований в области машинного обучения, но играйте осторожно.

Боб Л. Штурм и Одед Бен-Тал, пара исследователей музыки в области искусственного интеллекта, обсуждают folkrnn - основанный на алгоритмах генератор народной музыки - и то, как ирландская традиционная музыка может быть песочницей для игры с новым машинным обучением. идеи.

Искусственный интеллект достиг апогея. Многие исследователи и компании в настоящее время изучают возможности применения статистического машинного обучения (например, глубокого обучения) для создания музыки. Это знаменует собой последнюю главу (что удивительно для некоторых) долгой истории искусственного интеллекта и музыки (музыкального ИИ), восходящей, по крайней мере, к The Illiac Suite в 1957 году - и еще более длинную историю алгоритмических методов для музыки. композиция (например, Musikalisches Würfelspiel) и музыкальные автоматы. Преимущество использования статистического машинного обучения для создания музыкального ИИ заключается в том, что вы можете избежать определения правил и поведения. Но за это приходится платить: много данных и вычислительная мощность. Какой бы метод ни использовался для моделирования того или иного стиля музыки, остается важный вопрос: как можно осмысленно оценить и представить результаты? Давайте начнем вникать в это.

Многие исследователи музыки искусственного интеллекта пытались изучить правила контрапункта и голоса, ведущего из 370 хоралов Дж. С. Баха - сборника, который однороден по стилю, и к настоящему времени в значительной степени теоретически обоснован на его использовании в качестве образца в обучении гармонии поколений студентов. Эти известные практические правила могут дать некоторую значимую оценку успеха конкретного подхода, например, DeepBach. Другие исследователи обращались к моделированию выразительных представлений, доказательством чего является прослушивание - например, превосходные результаты Music Transformer компании Magenta.

С 2015 года мы изучаем способы оценки музыки с искусственным интеллектом. Мы специально работали над моделированием символических транскрипций высокого уровня определенных видов народной музыки, т. Е. Традиционной танцевальной музыки из Ирландии, Великобритании и Скандинавии. Моделирование этих видов народной музыки и использование полученных моделей для создания музыки убедило нас в том, что народная музыка может стать отличной песочницей для исследований в области машинного обучения - пространством для игрового исследования новых музыкальных идей искусственного интеллекта - предоставляя уникальные возможности для значимой оценки .

Подобно хоралам Баха, у этих видов народной музыки есть определенные функции, четко определенные формы и практические правила. Хотя зачастую это неполифонический и, конечно, не контрапункциональный, машину не так-то просто моделировать и имитировать. Для обучения музыке с искусственным интеллектом в этих стилях существует множество данных. Поскольку они широко практикуются во всем мире, их ждет неиспользованный ресурс для сотрудничества между исследователями машинного обучения и практиками в предметной области - в отличие от гармонии и контрапункта 18-го века. Это может обеспечить взаимодействие, которое поможет выявить недостатки методов и возможностей для развития. Это также иллюстрирует некоторые этические проблемы, связанные с исследованиями машинного обучения.

Может ли алгоритм создать хорошее приспособление?

Рассмотрим танцевальную мелодию «Прогулки Коннотмана», которая является ирландской «джигой». Название песни ничего не значит для вашего реального восприятия музыки. Однако то, что это называется «джигой», создает определенные ожидания в отношении ощущения и структуры мелодии. (Технически говоря, существует несколько различных типов приспособлений.) Вот одна из «реализаций» этой мелодии «в дикой природе»:

(В этом наборе из двух мелодий группа начинает новую мелодию в 1 мин 02 с другим ритмом.)

Не существует окончательной версии The Connaughtman’s Rambles (у нее тоже есть несколько названий), но некоторые аспекты структуры и характерные черты повторяются в разных сеттингах, некоторые из которых можно найти здесь.

Если мы внимательно посмотрим на текстовое представление (транскрипцию) мелодии, мы сможем начать извлекать некоторые характеристики, за которые может ухватиться алгоритм статистического обучения:

M: 6/8
K: Dmaj
FAA dAA | BAA dAG | FAA dfe | dBB BAG | FAA dAA | BAA def | gfe dfe | dBB BAG |
FAA dAA | BAA dAG | FAA dfe | dBB BAG | FAA dAA | BAA def | gfe dfe | dBB B3 |
fbb faf | fed ede | fbb faf | fed e3 | fbb faf | fed def | gfe dfe | dBB B3 |
fbb faf | fed ede | fbb faf | fed e3 | fbb faf | fed def | gfe dfe | dBB BAG |

В первых двух строках указывается метр (в данном случае шесть восьмых нот на такт «|») и тональность или режим (ре мажор), который описывает «домашнюю ноту» и то, как с ней соотносятся высоты в мелодии. Например, первая фа исполняется фа-диез. Оставшаяся последовательность символов определяет ноты мелодии. Даже ничего не зная о музыке, вы можете ясно видеть множество структур. Например, есть много повторяющихся подстрок, например, «FAA», «dAA |», «| BAA», «| gfe» и «| fbb». Существуют варианты строк, например «dfe |» и «def |», «BAA» и «BAG», «dBB BAG» и «dBB B3». Подстрока «FAA dAA |» встречается дважды в первых двух строках, а «fbb faf |» - трижды в последних двух строках. Подстрока «| gfe dfe |» появляется один раз в каждой строке около одной и той же позиции. Подстрока «| gfe dfe | dBB BAG |» появляется в конце первой и последней строк, а «| gfe dfe | dBB B3 |» появляется в конце второй и третьей строк. Есть строки с символами, которые кажутся связанными, например, «def | gfe d» постепенно повышается от «d» к «g», а затем возвращается к «d». Почти во всех случаях между каждой парой "|" есть шесть букв. Три наиболее часто встречающихся символа - это «F», «A» и «« ‘» ». Наконец, есть взаимосвязь между повторениями выше и символом «|». Например, «|» появляется два раза между одними повторениями, четыре раза между другими, восемь раз между другими и так далее.

Все это показывает, что в «Прогулках Коннахтмана» много разных структур. Поскольку приспособления обладают многими из этих общих характеристик, достаточно выразительная модель машинного обучения должна уметь фиксировать их и надежно имитировать приспособление как в коротком, так и в длинном масштабе.

Одна из моделей, которые мы построили на http://folkrnn.org, была обучена более чем 23 000 транскрипций традиционной музыки из Ирландии и Великобритании, включая множество джигов. Чтобы проверить его способность генерировать приспособление, мы просто инициализируем модель с помощью 6/8 метра и нажимаем Составить. Модель воспроизводит следующую транскрипцию (которая транспонирована на ре мажор ниже для сравнения с Прогулками Коннотмана):

M: 6/8
K: Dmaj
AFA AFA | Bcd efg | fed (3BcdB | AFD EFG | AFA AFA | Bcd efg | fed BdB | AFD E3 |
AFA AFA | Bcd efg | fed (3BcdB | AFD EFG | AFA AFA | Bcd efg | fed BdB | AFD E3 |
B2B Bcd | cde edB | AFD EFD | FDE F3 | B2B Bcd | ced cde | fed BdB | AFD E3 |
B2B Bcd | cde edB | AFD EFD | FDE F3 | B2B Bcd | ced cde | fed BdB | AFD E3 |

Поскольку модель обучена минимизировать кросс-энтропийную потерю при обучении транскрипции, эта сгенерированная транскрипция должна быть вероятной для данной модели. Но его вероятность не показывает, насколько он хорош по сравнению с "настоящим". При поиске структур и закономерностей, как мы делали в Прогулках Коннахтмана, становится ясно, что существует несколько однотипных повторов и вариаций подстрок. Длина мелодии такая же, как у Прогулки Коннахтмана. В фольклорной модели достаточно выразительности, так что каждая строка заканчивается одинаково. Поиск больших частей этой сгенерированной мелодии в обучающих транскрипциях не обнаруживает плагиата. Настоящая джига Жаворонок утром - это тот, который имеет тот же первый такт, но после него совсем другой. Ирландская система идентификации мелодии tunepal идентифицирует эту искусственную джигу как похожую на Whistler at the Wake - что не совсем неверно для начала мелодии, но есть явные различия. Следовательно, folkrnn может успешно имитировать некоторые из структур, замеченных в jigs, и в этом случае произвел новый результат. Более глубокое изучение требует знания предметной области и практики.

Оценка со знанием предметной области и практикой

Знание и практика ирландской традиционной музыки могут помочь оценить результат, полученный в результате применения модели народной музыки, множеством значимых способов. Насколько это играбельно? Как это звучит и ощущается по сравнению с тем, что имитирует? Насколько это запоминается? В чем он преуспевает и что терпит неудачу? Как часто фолкрн преуспевает и терпит поражение? Боб ни в коем случае не является экспертом в ирландской традиционной музыке, но он знает достаточно, чтобы оценить успех сгенерированной транскрипции. Итак, он начал учиться играть в нее на своей «Народной машине Злой зеленой машины»:

Боб достаточно научился играть такую ​​музыку, поэтому выучить транскрипцию было не так уж сложно. Это связано с тем, что многие из его фигур являются общими для тех, которые он видел раньше, например, скалярное движение, триплет «(3Bcd», интервалы отскока, такие как «AFA», а также структура и ритм. Единственной странной частью, которую он обнаружил, была подпоследовательность «EFD | FDE F3», который не встречается ни в одной из более чем 23 000 мелодий, на которых был обучен фолькрн. Эта часть потребовала на несколько повторений больше, чем любая другая часть. В целом, транскрипция, созданная народом, достаточно согласуется с другой. Боб может сыграть традиционные ирландские мелодии (75 и больше), которые было легко разучить, так что это плюс для созданной мелодии.

Боб также обнаружил, что сыграть эту мелодию как джигу несложно. Он не играет ее так прямо и жестко, как записано в компьютерной транскрипции, а добавляет гармонический и ритмический аккомпанемент и немного свинга, чтобы мелодия была похожа на джигу. В мелодии также есть место для украшения. Таким образом, мелодию можно проигрывать, как и другие пилинги - опять же, больше похвалы за сгенерированную мелодию.

А как звучит джиг? Это уникально. Повторения и вариации мелодии придают мелодии связность, но ни одна из фраз не разрешается («Бродяги Коннахтмана» несут такую ​​же резкость). Из-за этого кажется, что мелодия продолжается без разрешения - но не бесцельно. В своем исполнении Боб добавляет разрешение в конце, играя первые такты мелодии и заканчивая на D. Но если бы он играл эту мелодию в наборе, он бы не поставил ее последней. (Возможно, набор будет называться «Lilting Banshee», «The jig for Melodrive» и, наконец, «The Blackthorn Stick»). Тем не менее, звучание мелодии привлекает его и запоминается - но будет ли он все еще помнить, как играть в нее через месяц?

Как можно «улучшить» транскрипцию? Единственное изменение, на котором настаивает Боб, - это вторая часть: заставить мелодию достигать высокого «g», а не только фа-диез ниже. Он действительно делает это в своем исполнении с нотой грации g, сокращенной до фа-диез. Возможны и другие изменения. Хотя эта фольклорная модель на этот раз оказалась успешной, нажатие еще несколько раз на «составить» приведет к другим результатам, некоторые из которых будут гораздо менее успешными, а те, которые Боб определенно не потрудился бы выучить. Изучив и воспроизведя множество транскрипций, созданных народом, Боб и другие обнаруживают, что часто первая часть мелодии сильнее, чем вторая, и что между частями часто отсутствует четкая взаимосвязь. Другое наблюдение заключается в том, что модель часто усложняет мелодию слишком большим количеством идей, а не развивает простые.

Это заставляет задуматься об успехе материала, созданного на основе фольклора в целом: насколько легко можно создать из этого материала альбом, который успешно имитирует альбомы традиционной ирландской музыки? Чтобы проверить это, мы сгенерировали 100 000 транскрипций с фольклорным языком и в 2018 году наняли профессиональных ирландских музыкантов для создания такого альбома. В результате альбом Let's Have Another Gan Ainm был создан быстро - благодаря количеству приемлемого материала - и опубликован с отличными отзывами. Более подробную информацию можно найти в нашем техническом отчете.

В более широком смысле, как модели, ориентированные на фолк, могут помочь создателям музыки в разных стилях? Один из способов - привлечь экспертов в других областях музыкальной практики для работы с созданным материалом. Торбьорн Халтмарк, который играет на трубе и тромбоне сопрано и часто интегрирует в свои концерты электронику (например, эффекты и интерактивные алгоритмы), легко нашел материал, созданный фольклорным жанром и представляющий музыкальный интерес:

А еще есть Bastard Tunes: четырехчастная композиция для ансамбля из шести музыкантов, созданная Одедом - композитором нетрадиционной музыки - с фольклорной музыкой. Пьеса была разработана путем взаимодействия с folkrnn посредством итеративного процесса генерации материала, его критической оценки и последующей настройки параметров инициализации модели. Первое движение работы использует температурный параметр для создания процесса постепенного распада. Четыре мелодических нити начинаются вместе и постепенно расходятся. Система folkrnn в основном генерирует короткие мелодии, около 16–20 тактов. На каждом этапе процесса последняя полоса сгенерированной мелодии использовалась в качестве начальной последовательности для расширения мелодии. Начиная с настройки низкой температуры и постепенно увеличивая ее, получилась мелодичная линия, постепенно уходящая от традиционного стиля тренировки. Повторение этого процесса четыре раза из одной и той же начальной последовательности привело к созданию четырех нитей, которые медленно расходятся друг от друга. Затем этот материал был тщательно отредактирован (одна из вещей, которых народ не усвоил, - это то, что игрокам нужно время от времени дышать) и распространен среди ансамбля.

Обратите внимание, как у пьесы есть джазовый поворот на 5–35 с. Это происходит из нот, созданных народным творчеством. Но вывести их на передний план музыки (путем удаления большей части материала в трех других направлениях) было выбором человека, руководствуясь человеческим ухом и воображением.

Проблемы для исследователей машинного обучения

Вышеупомянутые подходы к оценке музыкального ИИ - обучаемость, играбельность, прослушивание, запоминаемость, простота выбора, удобство использования - несомненно, ближе к поверхности музыкального опыта, чем вероятности последовательностей, вычисленные в статистической модели, базовые статистические сравнения популяций, или тесты на различение игрушек (просьба к слушателям решить, была ли музыка написана человеком или компьютером). Но эти подходы к оценке также более дорогие. В каком-то смысле это стоимость значимого исследования музыкального ИИ! Музыка для осмысленной интерпретации результатов необходимы специалисты-практики и предметные знания.

Это подходящий момент для определения некоторых этических вопросов, связанных с исследованиями в области музыкального ИИ. Несмотря на то, что данные могут быть доступны в свободном доступе, это не освобождает исследователя от машинного обучения от размышлений о том, следует ли им использовать их, как им следует их использовать, как их использование может нанести вред и как они могут окупить дивиденды от исследований. производится с его использованием.

Коллекция из десятков тысяч транскрипций традиционной ирландской музыки на сайте http://thesession.org является результатом труда многих сотен практикующих за почти два десятилетия существования сайта. Одна из целей этого ресурса - сохранить, поделиться и продвигать особые традиции исполнения ирландской традиционной музыки во всем мире. Это живая традиция, олицетворяющая национальную идентичность, которая продолжает богатую историю музыкантов, зарабатывающих на жизнь игрой и обучением на ней, что сильно отличается от хоралов Баха, закрепленных в учебниках. Итак, какое право имеют исследователи машинного обучения использовать эти данные? Возможно, народную музыку можно рассматривать как бесплатный общий ресурс; часть палаты общин, в отличие от музыки, продаваемой на коммерческой основе. Но тогда как можно ответственно использовать этот ресурс, создавая работу, которая поддерживает традицию или, по крайней мере, не умаляет ее? Сотрудничая с приверженцами традиций.

К счастью, по всему миру можно найти множество практиков традиционной музыки, и они с радостью получат деньги за то, чтобы поделиться своим опытом и страстью. Это дает исследователям машинного обучения возможность узнать о традиции и более осмысленно работать в практической области с помощью своих алгоритмов. Вы также можете внести свой вклад в сохранение традиции, поддерживая такие ресурсы, как https://thesession.org/donate, такие организации, как Comhaltas (https://comhaltas.ie) или Дом Сесила Шарпа (https: // www .cecilsharphouse.org ). (Боб также платит покаяние за свои грехи, проводя регулярные ирландские занятия для изучающих музыку в Стокгольме).

К чему это ведет?

Что произойдет, если кто-то создаст систему, которая всегда производит идеально правдоподобные приспособления? Будет ли это концом ирландской традиционной музыки? Музыка - это не последовательность нот или последовательность сэмплов - это многогранная социальная деятельность. Например, занятия ирландской музыкой вращаются вокруг социального опыта - вместе играют мелодии, собирают остроумные наборы и разучивают новые мелодии. Использование компьютерных приспособлений для сессий, которые никто не слышал и не знает, как играть, в некотором роде разрушает цель. Конечная цель состоит не в том, чтобы создавать наиболее правдоподобную народную музыку, а в том, чтобы мотивировать значимое и эффективное машинное обучение. Но, как и любая новая технология (от флейты до печатного станка, от синтезатора до мобильного телефона), музыкальный ИИ может использоваться творчески - и не всегда так, как это было задумано:

Разработчики музыкального ИИ могут и должны взаимодействовать с практиками, чтобы обогатить свои методологии и узнать, как заставить эту технологию служить людям и традициям, новым и старым.