Очеловечивание того, как ИИ слушают музыку

Представьте, что вы ИИ…

Вас только что оживил специалист по данным, и вы ничего не знаете: ни одной вещи! Все, на что вам нужно полагаться, — это архитектура нейронов, организованных в некую многоуровневую структуру, которая должна помочь вам найти путь через то, что станет вашей задачей, и какое-то правило о том, как справляться с ошибками, которые вы совершаете. Правило будет примерно таким: если вы допустили ошибку, измените некоторые нейроны вот так и вот так. Теперь вам показывают кучу данных. На самом деле данные — это музыка, но вы, конечно, не знаете, что такое музыка. Для каждого фрагмента данных вы должны угадать число. В реальном мире это число относится к эмоциям, таким как грусть или радость. Но вы, конечно, тоже не знаете, что такое эмоции.

Учитывая состояние, с которого начинается наш ИИ, становится ясно, что ему нужны тысячи образцов, чтобы понять даже самые простые вещи. На заре музыкального информационного поиска алгоритмы были обучены более предварительно обработанным функциям, которые уже включали такие понятия, как ритм и гармония, или другие дескрипторы, моделирующие человеческое восприятие. В настоящее время исследователи больше склонны давать ИИ очень простое представление музыки — обычно это своего рода спектрограмма, показывающая частотные амплитуды во времени. В зависимости от типа спектрограммы она уже может содержать много информации о человеческом восприятии: например, о том, что мы воспринимаем громкость и высоту тона не линейно, а логарифмически.

Тем не менее, ИИ еще предстоит пройти долгий путь, чтобы понять из этих загадочных картинок, что такое ритм, гармония или музыкальный стиль — каждая из этих концепций сама по себе является сложной задачей ИИ.

С положительной стороны, базовое спектральное представление позволяет ИИ теоретически находить в данных подсказки, которые были бы потеряны при переводе с предварительно обработанными функциями.
С другой стороны, это может привести к тому, что ИИ застрянет с некоторыми функциями, которые легче обнаружить для алгоритма, но которые имеют мало общего с человеческим восприятием.

Что я имею в виду?

Давайте рассмотрим пример из области распознавания изображений: исследователи использовали знаменитую нейронную сеть VGG19 для обнаружения животных. Но вместо того, чтобы использовать оригинальные изображения, они заменили текстуры животных другими случайными текстурами. Фигуры животных остались прежними. (Рисунок 2)

В результате, несмотря на то, что каждый человек по-прежнему узнает животных, догадки ИИ полностью опроверглись. В отличие от людей, ИИ, по-видимому, не фокусировался на форме объектов, как это делали люди. Это означает, что, несмотря на то, что ИИ был хорош в распознавании изображений реального мира, он оперировал совсем другими сигналами, чем люди.

Работа специалиста по данным состоит в том, чтобы найти эти слепые зоны и найти творческие способы подтолкнуть ИИ в правильном направлении. В нашем случае правильным направлением является более человечный способ прослушивания музыки. Это можно сделать, дав алгоритму подсказки о том, что важно, а что может быть менее важным в данных.

Аналогией примера с животными в музыке может быть то, что ИИ определяет песню как мощную или танцевальную, если в ней много баса. Несмотря на то, что ИИ, безусловно, прав в том, что это важный показатель для этих атрибутов, ИИ будет отброшен, если басовые частоты будут вырезаны из микса. Между тем человек может воспринимать произведение как менее интенсивное, но все же мощное или танцевальное. Кроме того, предоставляя ИИ песни без какой-либо информации о низком или высоком уровне, мы сообщаем ему, на каких аспектах следует сосредоточиться.

Конечно, это только один крошечный кусочек головоломки. Есть и другие проблемы, такие как улучшение понимания ИИ долгосрочных отношений. Но это будет что-то для другого поста…

Очеловечивание того, как ИИ слушают музыку

Вопросы по теме