Сбор объективных данных для машинного обучения

Предположим, что для спасения людей, застрявших в затопленных водах, развернут спасательный дрон, и он не может идентифицировать людей с темным оттенком кожи. Это было бы ужасно. Учитывая тот факт, что искусственный интеллект помогает автоматизировать принятие решений в таких областях, как здравоохранение, самостоятельное вождение, юриспруденция и многих других, что играет решающую роль в жизни человека, очень важно понимать и бороться с этическими проблемами, возникающими из-за предвзятости в система машинного обучения.

Ознакомьтесь с этой сводной версией этического исследования ИИ в 2021 году для получения дополнительной информации. Жизненный цикл машинного обучения начинается с данных, а точнее со сбора данных. Таким образом, я пишу эту статью, чтобы поделиться некоторыми практиками по снижению предвзятости с самого начала проекта ML, то есть сбора данных, хотя необходимо обеспечить минимальную предвзятость на всех этапах проекта для решения этических проблем. Например, можно найти учебные материалы о построении и индексации набора данных, методах визуализации, интерпретации моделей, методах развертывания и т. д., чтобы решить проблемы предвзятости в проекте ML.

Обратите внимание, что в этой статье основное внимание уделяется сбору данных, а не тому, как создавать системы машинного обучения без предубеждений с заданными данными, хотя для этого могут подразумеваться некоторые практические приемы.

1. Знайте, что должно быть внутри

Давайте представим ситуацию, когда мы разрабатываем технологию искусственного интеллекта для анализа зрения, которая должна быть развернута в торговом центре, и наша модель машинного обучения будет принимать последовательность кадров в качестве входных данных.

Можно попытаться перечислить как можно больше возможных сценариев, чтобы собрать данные для обучения. Что может попасть в систему?

Люди стоят в поисках продуктов,
Небольшие группы людей, идущих вместе,
Отсутствие, пустая или полная корзина и т. д.

Но почти невозможно придумать все возможные сценарии, верно?

Уродливый мужчина стоит рядом и смотрит в камеру 10 минут,
Насекомые блокируют или затемняют обзор хрусталика и т. д.

После перечисления вышеперечисленных сценариев команда должна сосредоточиться на определении что должно войти в систему? На этот вопрос можно легко ответить, если четко определить проблему. Чтобы не углубляться в наш пример, давайте просто предположим, что команда решила создать видеоролики, в которых люди выполняют некоторые действия, такие как ходьба, стояние или захват предметов при достаточном освещении.
После того, как мы завершили перечисление возможных сценарии и определив, что нам нужно, мы можем перейти к следующему шагу.

2. Сравните и закройте

На этом этапе мы сравним возможные сценарии с тем, что может обработать наша система. Прежде всего, создайте контрольный список перечисленных случаев, включая желаемые входные данные. Теперь отметьте случаи, когда требуемые данные выполнены, поскольку это то, что определено командой и должно быть обработано.

Далее задайте следующий вопрос:
Возможна ли запись только необходимых данных?
Да:Сохраните необходимые данные для обучения и отметьте отфильтрованные случаи выполнены.
Нет: ручная или автоматическая аннотация может быть сделана для отдельных случаев.

Наличие большего количества информации о данных помогло бы в фильтрации и анализе распределения, но это может или не может быть связано с затратами денег, времени или человеческих ресурсов. Например, в нашем сценарии магазина мы можем определить количество людей с помощью предварительно обученной модели машинного обучения, чтобы отфильтровать случаи без людей. Но у нас может не быть предварительно созданной модели ML для обнаружения корзины покупок, которую, возможно, придется обучать по-другому. Все зависит от решения команды и ограничений сбора данных.

После того, как мы закончим фильтрацию максимально необходимых данных из записанных данных, отметьте их как выполненные. Теперь мы можем разработать правила на основе атрибутов данных, чтобы максимально охватить перечисленные сценарии.
Выберите сценарии один за другим и найдите правило, основанное на свойстве данных, чтобы охватить его. Например, если общая яркость низка для желаемого ввода или слишком много совпадений между людьми, обоснуйте действие, чтобы охватить эти случаи. Таким образом, вы можете охватить максимальное количество случаев, придумав несколько свойств для ваших данных, которые впоследствии могут быть очень полезны для выполнения анализа распределения.

После выполнения всех шагов попробуйте распределить проценты для обращений, рассчитанные по частоте их появления, и посмотрите, какой процент вы покрываете. Если вы можете охватить более 90%, вы готовы перейти к следующему шагу или переосмыслить постановку задачи или требования к данным.

3. Запишите данные

Хотя перечисление всех сценариев — это непрерывный процесс, команда должна решить, что будет, а также завершить и задокументировать требования к данным для первой базовой версии, чтобы можно было хотя бы начать разработку проекта. Разработка системы машинного обучения — это итеративный процесс, в котором мы снова возвращаемся к данным после мониторинга отчетов. Вы должны опубликовать этот блог с обзором инструментов для систем мониторинга, но здесь я придерживаюсь только начальной фазы проекта ML. Теперь, когда команда знает, что должно входить, попробуйте записать только необходимые данные. Например, если мы определяем, носят ли люди соответствующие средства защиты на строительной площадке, бесполезно записывать изображения стен здания, когда на площадке никого нет.

Но, сказав, что мы не всегда можем записать то, что нам нужно. Может быть возможность записи точки данных за пределами того, что требуется. Например, нельзя всегда вручную включать и выключать камеру в торговом центре каждый раз, когда условие не выполняется. Это нереально. Но установление ожиданий очень помогло бы нам иметь дело с реальностью, поскольку мы можем отфильтровывать данные.

4. Избегайте предвзятости и предвзятости

Этот шаг нужен только для того, чтобы убедиться, что мы предпринимаем меры предосторожности, чтобы избежать любого вида смещения измерений или предубеждений и записать данные так, как они должны быть.
Смещение измерения возникает, когда есть проблема или дефект в наблюдении. или измерительный прибор. Изменение яркости камеры или датчики, записывающие нестандартные значения, могут вызвать погрешность измерения. Команда должна убедиться, что таких ошибок можно избежать либо путем использования нескольких устройств, либо путем привлечения человека для обеспечения надлежащего измерения.
Кроме того, старайтесь избегать сознательных или бессознательных предубеждений при записи данных. Например, не будь сегодня вторником, и никто не приходит в магазин за покупками, чтобы я мог остановить запись. Нет, пожалуйста, не позволяйте культурным влияниям или стереотипам вводить предвзятость в данные. Вот почему важно иметь четкое определение того, что необходимо. Наблюдатель должен понимать правила и поведение при сборе данных, которые должны быть хорошо задокументированы, чтобы сознательно избегать таких предубеждений.

Вот и все, вы сделали первый шаг сбора данных. Такой способ сбора данных поможет вашей команде по анализу данных лучше анализировать данные и разрабатывать модели.

Время, потраченное на качественный сбор данных, может сэкономить вам несколько итераций жизненного цикла машинного обучения. Я надеюсь, что этот систематический подход к сбору данных для начальной фазы проекта машинного обучения поможет вам в работе.

Сбор объективных данных для машинного обучения

1. Знайте, что должно быть внутри

2. Сравните и закройте

3. Запишите данные

4. Избегайте предвзятости и предвзятости

Вопросы по теме