Интерпретируемость — распространенная проблема в контексте моделей машинного обучения (ML). Почему наши модели делают именно такие прогнозы? На этот вопрос сложно ответить при работе со структурированными данными — неструктурированные данные делают проблему еще более сложной.

Прежде чем двигаться дальше, полезно определить, что мы подразумеваем под структурированными и неструктурированными данными. Структурированные данные обычно помещаются в таблицу с определенными и конечными свойствами. Электронная таблица доходов в Excel с течением времени будет представлять собой структурированные данные. Неструктурированные данные, напротив, обычно не имеют представления конечных полей и, как правило, не могут быть представлены в виде таблиц. Видео, изображения, аудио, электронные письма и текстовые файлы — все это примеры неструктурированных данных.

Не всегда ясно, какие функции в фрагменте неструктурированных данных определяют поведение модели. Является ли цвет самым важным компонентом изображения? Тени? Края? Часто это трудно узнать.

В какой-то степени с этой проблемой помогло появление векторных вложений как кратких многомерных представлений неструктурированных данных. На высоком уровне теперь мы можем использовать различные метрики расстояния, чтобы получить интуитивное представление о том, почему модель видит различные фрагменты неструктурированных данных как похожие или непохожие, и, вручную сравнивая эти элементы, мы можем получить представление о поведении модели.

Но это не масштабируется. Вместо этого нам нужно решение, которое позволит нам увидеть большую выборку нашего набора данных таким образом, который позволит нам понять отношения между элементами: войдите в визуализацию. В этой статье мы рассмотрим потенциал визуализации векторных вложений, чтобы облегчить интерпретацию моделей машинного обучения, применяемых к неструктурированным данным.

Визуализация и интерпретируемость

Визуализация может быть мощным инструментом при работе с векторными вложениями. Несмотря на то, что визуализация базовых векторов требует значительного уменьшения их размерности, современные методы, такие как UMAP, хорошо справляются с сохранением глобальной и локальной структуры базового набора данных. Это означает, что мы все еще можем получить важные сведения даже после перехода из пространства с высокой размерностью в пространство с низкой размерностью.

Чтобы продемонстрировать силу визуализации, мы создали инструмент, который показывает вложения, сгенерированные семейством больших языковых моделей GPT. Подробнее о том, что мы узнали, вы можете прочитать здесь. Используя этот инструмент, мы можем продемонстрировать силу визуализации для целей интерпретации. Давайте воспользуемся некоторыми примерами.

На снимке экрана ниже вы можете увидеть серию вложений для пар вопросов и ответов. Примечательно, что мы видим, что вопросы и ответы хорошо разделены моделью. Это хорошо — это показывает, что GPT умеет четко различать предложение в форме вопроса и предложение в форме ответа.

Теперь давайте посмотрим на некоторые отдельные кластеры и посмотрим, что они могут нам сказать. В этом наборе данных есть как минимум три кластера. Для этого обсуждения мы сосредоточимся на одном из «верхних» данных и еще одном, расположенном намного дальше от основного кластера, ближе к «низу». Начнем с последнего, учитывая его большую удаленность от основного массива данных.

Используя наш инструмент выбора, я могу изолировать этот кластер и отобразить его метаданные в правой части экрана. В этом случае метаданные — это вопросы и ответы, используемые для создания вложений, отображаемых на экране.

На приведенном ниже снимке экрана показан пример одной точки данных, которая представляет собой фрагмент стенограммы шоу Рэйчел Мэддоу, а также комментарий ChatGPT к самому фрагменту. Просматривая остальные точки данных в этом кластере, я вижу, что все они представляют собой фрагменты кабельных новостей вместе с комментариями ChatGPT.

Здесь мы можем сделать несколько ценных интерпретаций. Глядя на остальные данные, пары вопросов и ответов намного короче. Итак, мы видим, что длина в значительной степени определяет расхождение векторных значений между этим кластером и остальными данными. Мы также видим, что в этом локальном кластере хорошо сохранилась дихотомия вопрос/ответ.

Давайте теперь обратимся к другому интересующему кластеру в «верхней части» данных.

История здесь проста. Мы видим, что это случайные тестовые отправки. Они очень короткие и в некоторых случаях фактически не включают ответы самого ChatGPT.

Это понимание действительно помогло сформировать нашу дорожную карту продукта. Когда мы поняли, что люди проводят «тест», мы начали работать над функцией проверки данных, которая гарантировала бы получение законных вопросов и ответов ChatGPT, чтобы предотвратить предвзятость в данных.

Надеемся, что эти два примера помогут продемонстрировать, как можно использовать визуализацию для лучшей интерпретации модели машинного обучения, и объяснить, как она работает.

Помимо интерпретируемости

Визуализация имеет полезность помимо проблем с интерпретацией и объяснением. Все чаще правила соответствия требуют, чтобы модели были «объяснимыми» — эта концепция закреплена, например, в Общем регламенте по защите данных Европы (GDPR).

Рассмотрим модель машинного обучения, используемую для классификации видео с камер видеонаблюдения. Важно убедиться, что расовая предвзятость не является фактором в модели. Визуализацию можно использовать, чтобы понять, участвует ли модель в расовом профилировании, помечая видео, в которых участвуют люди определенной внешности. А после устранения предвзятости визуализация может быть использована для подтверждения регулирующим органам того, что модель свободна от предвзятости.

Кроме того, визуализация имеет значение не только для инженеров машинного обучения, работающих над моделями, но и для лиц, принимающих бизнес-решения, которые будут определять стратегию компании на основе прогнозов и результатов моделей. Многие ведущие руководители крупных корпораций не владеют методами машинного обучения или даже статистикой. Но у них есть годы или десятилетия опыта в своей отрасли, поэтому их мнение может быть трудно изменить.

Просить их доверять модели, поведение которой невозможно полностью объяснить, — сложное упражнение. Но показывая им, как модель работает с помощью визуализации, и демонстрируя интуицию модели, можно легче завоевать доверие и извлечь выгоду.

В заключение, новейшие методы уменьшения размерности гарантируют сохранение глобальной и локальной структуры данных при перемещении векторных вложений из высоких в низкие измерения. Это открывает новый мир исследования моделей благодаря силе векторных вложений.

Ссылки для получения дополнительной информации

  1. Визуализация данных с использованием t-SNE Лоренса ван дер Маатен, доступно по адресу https://lvdmaaten.github.io/tsne/
  2. Визуализация многомерных данных Джейка ВандерПласа, доступно по адресу https://jakevdp.github.io/PythonDataScienceHandbook/05.10-manifold-learning.html.