Группа чтения Каппа: февраль

Kappa Reads — это группа читателей, цель которой — обобщать, обобщать, обсуждать и комментировать недавние и прошлые статьи в областях ИИ, ориентированного на человека, взаимодействия человека и ИИ, искусственного интеллекта «человек в цикле» и краудсорсинга. В этом месяце несколько членов группы представят интересные документы, с которыми мы столкнулись и которыми хотим поделиться. В частности, мы сосредоточимся на сотрудничестве человека и ИИ и принятии решений, справедливости с точки зрения человеко-компьютерного взаимодействия и когнитивной предвзятости в краудсорсинге.

Сотрудничество человека и ИИ и принятие решений

Главной темой этого месяца было сотрудничество человека и ИИ. Здесь мы надеемся объединить сильные стороны людей и ИИ для выполнения ранее сложных задач. Ниже вы найдете две статьи, представленные Гаоле Хе: одну о моделях больших языков (LLM) и одну об автоматических предложениях. После этого есть еще две статьи, представленные Гарреттом Алленом по этой теме: обзорная статья и статья о переходе от человеческих систем к человеческим и от человека к системам ИИ.

Цепочки ИИ: прозрачное и контролируемое взаимодействие человека и ИИ путем объединения подсказок модели большого языка.

Т. Ву, М. Терри, Си Джей Кай; Препринт на arXiv ‘22

Ключевые слова: взаимодействие человека и ИИ, большая языковая модель, цепочка.

В то время как LLM продемонстрировали многообещающую производительность при выполнении простых задач, непрозрачность LLM создает серьезную проблему для помощи людям в более сложных задачах. Чтобы устранить такой пробел в исследованиях, авторы сначала обобщили общие проблемы, с которыми сталкиваются LLM, и определили набор примитивных операций в качестве возможных решений. Затем авторы предлагают решать сложные задачи путем объединения шагов LLM (примитивных операций), где выходные данные одного шага становятся входными данными для следующего, таким образом агрегируя выигрыши за шаг. Такой интерактивный дизайн дает возможность для вмешательства человека на промежуточных этапах, что способствует объяснимости и отладке. Экспериментальные результаты исследования пользователей с участием 20 человек показали повышенную прозрачность, управляемость и чувство сотрудничества для этой идеи.

Оценка влияния автоматизированных предложений на принятие решений: эксперты предметной области устраняют ошибки модели, но проявляют меньшую инициативу

А. Леви, М. Агравал, А. Сатьянараян, Д. Зонтаг; Препринт на arXiv ‘21

Ключевые слова: клиническая текстовая аннотация, экспертная аннотация, автоматическое предложение, пользовательское агентство.

Автоматизированная поддержка принятия решений может ускорить выполнение утомительных задач, поскольку пользователи могут сосредоточить свое внимание там, где это необходимо больше всего. Тем не менее, главная проблема заключается в том, слишком ли доверяют пользователи автоматизации или отказываются от нее. В этой статье исследованы последствия введения автоматизации для аннотирования клинических текстов — многоступенчатой, подверженной ошибкам задачи идентификации клинических понятий (например, процедур) в медицинских заметках и сопоставления их с метками в большой онтологии. Результаты экспериментов показали, что эксперты могут добиться повышения эффективности при поддержке рекомендаций ИИ. Однако при представлении полностью предварительно заполненных предложений эти опытные пользователи проявляют меньшую свободу действий: принимают неуместные упоминания и проявляют меньшую инициативу в создании дополнительных аннотаций.

На пути к науке о принятии решений человеком и ИИ: обзор эмпирических исследований.

В. Лай, К. Чен, К. В. Ляо, А. Смит-Реннер, К. Тан; Препринт наarXiv ‘21

Ключевые слова: задачи принятия решений, сотрудничество человека и ИИ, помощь ИИ, взаимодействие человека и компьютера, компьютеры и общество.

Искусственный интеллект (ИИ) — это быстро развивающаяся область исследований, охватывающая многие дисциплины и области. На момент публикации этой статьи не было обзоров существующих работ. Поэтому авторы попытались провести именно такой обзор. Из-за широты исследований ИИ опрос ограничен задачами принятия решений, в частности теми, которые предназначены для помощи или участия людей. Опрошенные документы были собраны с нескольких конференций высшего уровня, таких как CHI, IUI, EMNLP и других. Собрав 130 публикаций, авторы обсудили и сократили окончательный пул кандидатов для исследования до 80 статей. Затем были рассмотрены задачи принятия решений, вспомогательные элементы ИИ и стратегии оценки для каждой публикации. Для каждого из них авторы предоставляют краткое изложение тенденций, пробелов и направлений будущей работы.

От сотрудничества человека и человека к сотрудничеству человека и ИИ: проектирование систем ИИ, которые могут работать вместе с людьми

Д. Ван, Э. Черчилль, П. Маес, X. Фан, Б. Шнейдерман, Ю. Ши, К. Ван; Конференция CHI по человеческому фактору в вычислительных системах ‘20

Ключевые слова: сотрудничество человека и ИИ, здравоохранение на базе ИИ, групповое сотрудничество, партнер ИИ, объяснимый ИИ, доверенный ИИ, совместная работа с компьютерной поддержкой.

Этот документ представляет собой предложение для семинара на CHI 2020. Организаторы стремились привлечь экспертов и практиков из сообществ AI и HCI к обсуждению, направленному на преодоление разрыва между двумя сообществами. Предлагаемое обсуждение будет сосредоточено на изучении того, как ИИ может сотрудничать с людьми. Оттуда обсуждение того, как это сотрудничество повлияет на повседневную жизнь, на работу и на отдых. Для обсуждения были приглашены несколько участников дискуссии, при этом заявленный результат семинара представлял собой синтез в виде статьи в CHI или статьи в специальном выпуске журнала.

Справедливость с точки зрения HCI

Далее мы переходим к более глубокому изучению злободневной проблемы предвзятости и справедливости в человеко-компьютерном взаимодействии, уделяя особое внимание наборам инструментов, с двумя статьями по этой теме, представленными Агатой Балайн.

Ландшафт и пробелы в наборах инструментов честности с открытым исходным кодом

М. С. А. Ли, Дж. Сингх; Конференция CHI по человеческому фактору в вычислительных системах ‘21

Ключевые слова: несправедливость, предвзятость, практик, наборы инструментов.

Несправедливость, возникающая из-за результатов модели машинного обучения, теперь является известной проблемой в сообществе машинного обучения. Чтобы сделать результаты машинного обучения менее предвзятыми, исследователи сосредоточились на разработке множества так называемых показателей справедливости и методов смягчения предвзятости. После разработки этих технических инструментов различные учреждения и компании взялись за разработку наборов инструментов с открытым доступом, чтобы помочь специалистам по машинному обучению использовать эти инструменты в своей повседневной работе. Эти наборы инструментов в основном представляют собой репозитории кода, упрощающие реализацию метрик и методов смягчения последствий, или пользовательские интерфейсы, ускоряющие их применение. Несмотря на потенциальную полезность этих наборов инструментов, остается неясным, в какой степени они могут отвечать реальным потребностям практиков машинного обучения, поскольку в нескольких работах исследовалось взаимодействие этих практиков с этими инструментами и разработка моделей машинного обучения. Две статьи, представленные ниже, отражают это направление исследований.

На пути к справедливости на практике: ориентированная на практику рубрика для оценки честных наборов инструментов машинного обучения

Б. Ричардсон, Дж. Гарсия-Гатрайт, С. Ф. Уэй, Дж. Том, Х. Крамер; Конференция CHI по человеческому фактору в вычислительных системах ‘21

Ключевые слова: машинное обучение, несправедливость, эмпирическая работа.

В частности, в этой статье выявляются пробелы между существующими наборами инструментов и потребностями практикующих специалистов, а также определяется список исследовательских возможностей для улучшения инструментов. Для этого используется смешанный подход с исследовательской фокус-группой, полуструктурированными интервью, анонимным опросом специалистов по науке о данных/машинному обучению и теоретическим сравнительным исследованием шести наборов инструментов справедливости. Выявлены следующие основные пробелы в использовании инструментов: крутая кривая обучения; отсутствие индивидуального пользовательского интерфейса, позволяющего избежать как информационной перегрузки, так и чрезмерного упрощения; ограниченный охват соображений справедливости в сквозном жизненном цикле разработки модели (т. е. за пределами этапа построения и тестирования модели); ограниченные возможности адаптации и интеграции инструментов для «подключи и работай» с существующим рабочим процессом; ограниченная способность адаптировать и интегрировать инструменты для «подключи и работай» с существующим рабочим процессом.

Когнитивное искажение в краудсорсинге

Наконец, Уджвал Гадираджу обсудил документ лаборатории, в котором предлагается контрольный список для борьбы с когнитивными предубеждениями, особенно в области краудсорсинга. Недавние исследования качества данных и сопутствующих последствий для моделей машинного обучения и систем искусственного интеллекта показали, что когнитивные предубеждения могут негативно повлиять на качество краудсорсинговых данных. Хотя сейчас это хорошо понятно, когнитивные искажения часто остаются незамеченными. Поскольку значительные усилия и затраты влекут за собой крупномасштабный сбор человеческих аннотаций по множеству задач, бесспорно важно сделать такие коллекции данных надежными и пригодными для повторного использования.

Контрольный список для борьбы с когнитивными искажениями в краудсорсинге

Т. Дроу, А. Ригер, О. Инел, У. Гадираджу, Н. Тинтарев; Материалы конференции AAAI по человеческим вычислениям и краудсорсингу ‘21

Ключевые слова: когнитивные искажения, разработка задач, краудсорсинг, систематические искажения, надежный ИИ, заслуживающий доверия ИИ.

Чтобы облегчить повторное использование коллекций краудсорсинговых данных, практикующие врачи могут извлечь пользу из понимания того, могут ли и какие когнитивные предубеждения быть связаны с данными. С этой целью лица, запрашивающие задачи (т. е. те, кто разрабатывает и развертывает задачи для сбора меток или аннотаций в режиме онлайн из распределенной толпы) должны убедиться, что рабочие процессы задач и выбор дизайна не вызывают когнитивных предубеждений тех, кто вносит свой человеческий вклад. . Удовлетворяя эту потребность в нашей работе под руководством Тима, мы предлагаем Контрольный список когнитивных искажений в краудсорсинге (Контрольный список CBC) в качестве практического инструмента, который заказчики могут использовать для улучшения своих задач и надлежащего описания потенциальных ограничений собранных данных. Мы предполагаем, что этот контрольный список станет живым документом, который может быть расширен сообществом по мере обнаружения или понимания того, что новые когнитивные искажения влияют на человеческий вклад в задачи краудсорсинга. Мы приглашаем вас прочитать документ, чтобы узнать больше о том, как контрольный список CBC можно использовать на практике. В документе также приводится дополнительный анализ, мотивирующий потребность в таком инструменте.

На этом наш обзор от 22 февраля завершается. Мы в Kappa надеемся, что он вам понравился и вдохновил вас на исследование. Не забудьте подписаться по электронной почте, чтобы получать уведомления о публикации в следующем месяце, и следите за нами в Твиттере @wisdelft.