Выявление предвзятости машинного обучения с помощью обновленных наборов данных

Хорошо модерируемые онлайн-платформы и разделы комментариев предлагают уникальный форум, на котором люди могут общаться и учиться друг у друга. Однако огромный объем контента, созданного на многих из этих платформ, может сделать усилия по сдерживанию ненависти, преследований и злоупотреблений невероятно трудными. Онлайн-токсичность была в центре внимания Jigsaw с самого начала, и мы продолжаем изучать, как технологии могут помочь улучшить онлайн-общение.

Сегодня мы рады представить набор данных Sentence Templates, который мы используем для тестирования Perspective API на предмет непреднамеренной предвзятости. Perspective использует машинное обучение для выявления токсичных комментариев, помогая модераторам-людям каждый день просеивать миллионы пользовательских постов на сотнях платформ. Perspective анализирует текст комментариев и присваивает им вероятность от 0 (очень маловероятно) до 1 (очень вероятно), что читатели сочтут их токсичными. Токсичный в этом контексте определяется как грубый, неуважительный или необоснованный язык, который может заставить человека покинуть обсуждение.

Хотя наши модели были разработаны для повышения инклюзивности в Интернете, мы видели, что наши модели иногда приписывали высокий уровень токсичности сообщениям, содержащим определенные идентификационные термины, независимо от настроения сообщения. Это связано с частотой, с которой в ядовитых и нападающих комментариях появляются названия часто порочащих групп идентичности, в том числе геи и мусульмане. Это создает ситуацию, когда модели чаще отмечают нетоксичные комментарии как потенциально токсичные, а токсичные комментарии как нетоксичные.

Предыдущие исследования показали, что непреднамеренная предвзятость такого рода часто встречается в языковых моделях. В одном исследовании стандартная языковая модель дала вероятность 0,915 того, что утверждение я гей было токсичным, в то время как утверждение я натурал было назначено вероятностью всего 0,085 быть токсичным.

Мы продолжали разрабатывать стратегии для смягчения этой предвзятости в Perspective, сбалансировав обучающие данные, чтобы уменьшить предвзятость терминов идентичности, опубликовав Модельные карты с показателями непреднамеренной предвзятости, а совсем недавно запустив Конкурс Kaggle для выявления и уменьшить предвзятость модели.

Важным шагом в снижении непреднамеренной предвзятости является проверка на предвзятость. Набор данных Шаблоны предложений позволит исследователям и разработчикам других моделей машинного обучения проверять наличие предубеждений, которые могут подорвать их собственную работу.

Набор данных «Шаблоны предложений» был создан путем включения терминов идентичности, занятий и модификаторов в набор шаблонов, например, «Я — ‹модификатор› ‹личность›», чтобы сформировать тестовые предложения. Поскольку различается только термин идентификации, примеры, использующие один и тот же шаблон — например, «Я добрый американец» и «Я добрый мусульманин» — должны давать одинаковые оценки токсичности. Значительно различающиеся баллы могут указывать на смещение термина идентичности в рамках модели.

Sentence Templates расширяет предыдущую работу по устранению предвзятости идентичности, предлагая исследователям и технологам больше возможностей для оценки и выявления предвзятости в своих моделях, прежде чем они повлияют на пользователей.

В сотрудничестве с лингвистами и командой Google по локализации мы перевели шаблоны и создали многоязычные списки слов, в том числе соответствующие местным терминам идентификации, для создания наборов данных Sentence Templates для 11 различных языков.

Шаблоны предложений не являются серебряной пулей для устранения предвзятости идентичности в языковых моделях машинного обучения. Идентификационные термины и их коннотации в дальнейшем быстро развиваются, и их использование может иметь поразительно разные значения не только в разных языках, культурах и местностях, но и при использовании говорящими внутри и вне группы — нюансы, которые пока не могут быть эффективно уловлены исследователями. любую языковую модель.

Однако мы считаем, что шаблоны предложений со временем послужат ценным инструментом для тестирования языковых моделей. Мы намерены продолжать пополнять наш расширяющийся список языков вместе с наборами данных, содержащими все более естественный и нюансированный язык, на который могут опираться тестировщики языковых моделей.

Команда Jigsaw по-прежнему стремится поддерживать и учиться у людей, которые полагаются на такие API, как Perspective, для ежедневной сортировки миллионов комментариев, чтобы пространство для онлайн-общения оставалось открытым, безопасным и здоровым.

Посетите наш Репозиторий шаблонов предложений на GitHub, чтобы применить их к своим моделям.

Авторы: Люси Вассерман, Тин Акоста, Лукас Дос Сантос, Алисса Чваста, Роэль Торп, Ракель Сакс