автор Джеймс Леннон 18 августа 2020 г.

Введение

Машинное обучение — это технологический сдвиг, происходящий раз в поколение, который создает огромную ценность за счет извлечения информации из данных. Но алгоритмическая предвзятость остается серьезной проблемой, поскольку машинное обучение становится все более распространенным. Если модели машинного обучения не обучены на репрезентативных данных, они могут привести к серьезным искажениям, что нанесет значительный ущерб недостаточно представленным группам и приведет к неэффективным продуктам. Мы исследовали набор данных CoNLL-2003 — стандарт построения алгоритмов, распознающих именованные сущности в тексте, — и обнаружили, что данные сильно перекошены в сторону мужских имен. Используя технологию Scale, мы смогли систематически смягчить это смещение за счет:

  1. Обогащение данных для выявления скрытых предубеждений
  2. Расширение набора данных недопредставленными примерами для смягчения гендерной предвзятости

Модель, обученная на нашем расширенном наборе данных CoNLL-2003, имеет как меньшую погрешность, так и более высокую производительность, что демонстрирует, как можно устранить погрешность без внесения каких-либо изменений в модель. Мы выложили в открытый доступ аннотации распознавания именованных объектов для исходного набора данных CoNLL-2003 и нашего дополнения к нему здесь.

Алгоритмическая предвзятость: слабость ИИ

Сегодня тысячи инженеров и исследователей создают системы, которые учатся достигать значительных прорывов — повышать безопасность дорожного движения с помощью беспилотных автомобилей, лечить болезни с помощью методов лечения, оптимизированных с помощью ИИ, и бороться с изменением климата за счет управления потреблением энергии.

Но сила самообучающихся систем также является их слабостью. Поскольку данные являются основой всех приложений машинного обучения, обучение на несовершенных данных может привести к необъективным выводам.

Сила систем ИИ означает, что их способность причинять вред, если они предвзяты, значительна. Недавние протесты против жестокости полиции, которая привела к трагической гибели Джорджа Флойда, Бреонны Тейлор, Филандо Кастилии, Сандры Бланд и многих других, являются важным напоминанием о системном неравенстве в нашем обществе, которое системы ИИ не должны увековечивать. Но, как мы знаем из бесчисленных примеров — будь то результаты поиска изображений увековечивание гендерных стереотипов, системы управления преступниками, дискриминирующие чернокожих подсудимых, или системы распознавания лиц неправильная идентификация цветных людей — нам предстоит пройти долгий путь, прежде чем мы сможем сказать, что проблема предвзятости ИИ решена.

Предвзятость преобладает, потому что ее очень легко внедрить. Например, он появляется в моделях и наборах данных с открытым исходным кодом, являющихся золотым стандартом, которые являются основой огромных объемов работы в области машинного обучения. Набор данных о настроениях word2vec для построения других языковых моделей искажен по этническому признаку, а встраивание слов — то, как алгоритм машинного обучения представляет слова и их значения — содержит сильно предвзятые предположения. о том, с какими профессиями ассоциируются женщины.

Проблема — и, по крайней мере, часть решения — заключается в данных. Чтобы проиллюстрировать это, мы провели эксперимент с одним из самых популярных наборов данных для построения систем, которые могут распознавать именованные сущности в тексте: CoNLL-2003.

Что такое распознавание именованных объектов?

Распознавание именованных объектов (NER) является одним из основных строительных блоков моделей естественного языка — без него онлайн-поиск, извлечение информации и анализ настроений были бы невозможны.

Наша миссия в Scale AI — ускорить разработку ИИ. Естественный язык — одно из наших основных направлений. Наше предложение Scale Text включает NER, который включает аннотирование текста в соответствии с предварительно определенным списком меток. На практике это может помочь крупным ритейлерам проанализировать, как их продукты обсуждаются в Интернете, среди других приложений.

Многие системы NER обучены и проверены на CoNLL-2003 — наборе данных примерно из 20 000 предложений из новостных статей Reuters, снабженных аннотациями с такими атрибутами, как ЛИЦО, МЕСТОПОЛОЖЕНИЕ и ОРГАНИЗАЦИЯ. .

Мы хотели выяснить, были ли данные предвзятыми. Для этого мы использовали наш конвейер маркировки Scale AI, чтобы классифицировать все имена в наборе данных, спрашивая, могут ли они быть мужчинами, женщинами или любым из них, определяя пол на основе традиционного использования имени.

Мы обнаружили разительную разницу. Мужские имена упоминаются почти в пять раз чаще, чем женские, и менее 2% имен были гендерно-нейтральными:

Это связано с тем, что новостные статьи по социальным причинам, как правило, содержат в основном мужские имена. Но модель NER, обученная на этих данных, будет лучше выбирать мужские имена, чем женские. Например, поисковые системы используют модели NER для классификации имен в поисковых запросах и получения более точных результатов. Но разверните предвзятую модель NER, и поисковая система будет хуже идентифицировать имена женщин, чем мужчин — именно такая тонкая, всепроникающая предвзятость может проникнуть во многие системы реального мира.

Новый эксперимент по уменьшению предвзятости

Чтобы проиллюстрировать это, мы обучили модель NER, чтобы исследовать, как эта гендерная предвзятость повлияет на ее производительность. Мы создали алгоритм извлечения имен для выбора меток PERSON, используя spaCy, популярную библиотеку НЛП, и обучили модель на подмножестве данных CoNLL. Когда мы протестировали модель на новых именах в тестовых данных, которых не было в обучающих данных, мы обнаружили, что модель на 5% чаще пропускала новое женское имя, чем новое мужское имя — значительное расхождение в производительности:

Аналогичные результаты мы видели, когда использовали нашу модель на шаблоне «ИМЯ — это человек», подставив 100 самых популярных мужских и женских имен для каждого года переписи населения США — модель работает значительно хуже на женских именах для всех лет переписи. :

Важно отметить, что необъективные обучающие данные означают, что ошибки искажаются в сторону недопредставленных категорий. Этот эксперимент с переписью иллюстрирует это и во-вторых: производительность модели значительно снижается после 1997 года — критической точки в статьях Reuters в Набор данных CoNLL — потому что набор данных не отражает популярность имен в последующие годы.

Модели учатся соответствовать тенденциям данных, на которых они обучаются. Нельзя ожидать, что они будут хорошо работать в случаях, для которых они видели несколько примеров.

Если вы устраняете предвзятость модели, уже слишком поздно

Итак, как мы это исправим?

Один из способов — попытаться устранить смещение модели — возможно, путем постобработки модели или добавления целевой функции для уменьшения смещения, предоставив нашей модели возможность выяснить детали.

Но есть несколько причин, почему это не лучший подход:

  1. Справедливость — очень сложный вопрос, и мы не можем ожидать, что алгоритм определит его самостоятельно. Исследования показали, что обучение алгоритма одинаковой работе со всеми подмножествами населения не обеспечит справедливости и нанесет вред обучению модели.
  2. Добавление дополнительных целевых функций может повредить точности модели, что приведет к компромиссу. Вместо этого лучше упростить алгоритм и обеспечить сбалансированность данных, что улучшит производительность модели и позволит избежать компромиссов.
  3. Неразумно ожидать, что модель будет хорошо работать в случаях, для которых она видела мало примеров. Лучший способ обеспечить хорошие результаты — повысить разнообразие данных.
  4. Попытка устранить смещение модели с помощью инженерных методов требует больших затрат времени и средств. Гораздо дешевле и проще обучать свои модели в первую очередь на объективных данных, освобождая ваших инженеров, чтобы сосредоточиться на приложениях.

Данные — это только часть проблемы предвзятости. Но оно является фундаментальным, влияющим на все, что последует за ним. Вот почему мы думаем, что он содержит ключ к некоторым решениям, обеспечивая потенциальные систематические исправления в источнике. Если вы явно не обозначите защищенные классы, например пол или этническую принадлежность, невозможно должным образом смягчить эти классы как источник предвзятости.

Это противоречит здравому смыслу. Конечно, если вы хотите построить модель, которая не зависит от чувствительных характеристик, таких как пол, возраст или этническая принадлежность, лучше всего исключить эти свойства из обучающих данных, чтобы модель не могла их учитывать?

«Справедливость по невежеству» на самом деле усугубляет проблему. Модели машинного обучения превосходно делают выводы по функциям — они не перестают делать это только потому, что мы явно не пометили эти функции. Предубеждения просто остаются незамеченными, что затрудняет их устранение.

Единственный надежный способ решить эту проблему — пометить больше данных, чтобы сбалансировать распределение имен. Мы использовали отдельную модель машинного обучения для определения предложений в корпусах Reuters и Brown, которые могут содержать женские имена, а затем пометили эти предложения с помощью нашего конвейера NER, чтобы увеличить CoNLL.

Полученный набор данных, который мы назвали CoNLL-Balanced, содержит более 400 женских имен. Когда мы переобучили на нем нашу модель NER, мы обнаружили, что наш алгоритм больше не склонен хуже работать с женскими именами:

Мало того, модель также лучше распознавала мужские имена.

Это впечатляющая демонстрация силы данных. Уменьшение предвзятости у источника означало, что нам не нужно было вносить какие-либо коррективы в нашу модель машинного обучения, что экономило время на разработку. И мы достигли этого без какого-либо компромисса в производительности нашей модели — фактически ее производительность немного улучшилась.

Чтобы сообщество могло опираться на нашу работу и смягчить гендерную предвзятость в моделях, построенных на CoNLL-2003, мы предоставили расширенный набор данных Scale AI с открытым исходным кодом, который также включает гендерную информацию наш веб-сайт.

У сообщества AI/ML есть свои проблемы с разнообразием, но мы осторожно взволнованы этими результатами. Он предполагает, как мы могли бы предложить техническое решение насущной социальной проблемы — при условии, что мы решим проблему прямо, выявив скрытые предубеждения и улучшив производительность модели для всех.

Сейчас мы изучаем, как мы могли бы применить этот подход к другому очень чувствительному атрибуту — этнической принадлежности — чтобы выяснить, можем ли мы создать надежную основу для устранения предвзятости наборов данных, которая масштабируется на другие защищенные классы.

Это также показывает, почему мы в Scale AI уделяем так много внимания качеству данных. Если данные не являются доказуемо точными, сбалансированными и беспристрастными, нет никакой гарантии, что построенные на их основе модели будут безопасными и точными. А без этого мы не сможем создать трансформационные технологии ИИ, которые принесут пользу всем. Если вы разрабатываете технологии искусственного интеллекта и вам нужна помощь в балансировке ваших собственных наборов данных, чтобы ваши модели работали для всех, обратитесь к нам.

Благодарности:

Набор данных CoNLL 2003, на который ссылается этот пост в блоге, представляет собой набор тестов Reuters-21578, Distribution 1.0, доступный на странице проекта для исходного эксперимента 2003 года: https://www.clips.uantwerpen.be/conll2003/ner /.