Задавайте критические вопросы на каждом этапе, чтобы смягчить предубеждения и ограничения для достижения наилучших результатов.

Проекты машинного обучения в значительной степени зависят от наборов данных, которые часто имеют удивительную историю, использование и жизнь после смерти. Жизненный цикл набора данных состоит из нескольких этапов: от поиска лучшего набора данных для задания до обмена результатами и учета последствий.

В этой статье мы обсудим критические вопросы, которые необходимо задавать на каждом этапе проекта, использующего наборы данных машинного обучения.

Происхождение: какова история вашего набора данных?

Наборы данных являются результатом их средств сбора. Важно понимать происхождение набора данных и его создателей, чтобы выбрать лучший набор данных для вашего проекта.

Вы должны задать такие вопросы, как кто создал набор данных, кто его финансировал и каковы были их мотивы или цели? Если мотивы и цели значительно отличаются от вашего проекта, вам необходимо рассмотреть альтернативные наборы данных. Вы должны задокументировать обоснование выбора набора данных.

Как данные собирались и аннотировались?

Важно понимать, как данные были собраны и аннотированы и кем. Были ли субъекты данных частью дизайна и создания набора данных, и были ли полученные данные проверены его субъектами?

Если методы сбора и аннотации были неподходящими или не соответствовали вашим целям, вы можете рассмотреть альтернативный набор данных. Также важно учитывать контекст маркировки и аннотаций, поскольку в данных из краудсорсинга могут отсутствовать нюансы отдельных аннотаторов с разных точек зрения, у которых была возможность сотрудничать.

Как уже был обработан набор данных?

Если набор данных представляет собой небольшую выборку из более крупной коллекции, изучите первоисточники, чтобы убедиться, что данные соответствуют образцу или больше подходят для вашей работы. Если набор данных был преобразован, посмотрите, есть ли в документации исходная версия или описание ее методов.

Что содержит набор данных?

Вам необходимо понять, что содержит набор данных и включает ли он кодовую книгу, описывающую его части. Какие перспективы включены, какие отсутствуют, какие выбросы отброшены и какие данные не учтены?

Если в наборе данных есть пробелы, из-за которых игнорируются важные соображения или которые могут повлиять на ваш проект, рассмотрите альтернативный набор данных. Чтобы лучше понять, как решаются похожие проблемы, рекомендуется сравнить этот набор данных с другими в той же области.

Когда был создан набор данных?

Вам нужно знать, когда был создан набор данных, является ли это последней версией, и если он устарел (или удален из публичного обращения), то почему? Содержит ли он информацию, которая является неточной или оскорбительной?

Вам нужно действовать с осторожностью, если набор данных имеет ограничения, которые могут повлиять на ваш проект.

Обмен результатами и учет воздействия

Независимо от того, используете ли вы набор данных, вам необходимо задокументировать свои вопросы и опасения. Опишите ограничения, которые вы определили в наборе данных, проанализируйте их важность для вашего проекта и объясните шаги, которые вы предприняли для смягчения их последствий, если таковые имеются. Подойдите к теме с осторожностью, если это необходимо.

Заключение

В заключение, понимание жизненного цикла набора данных имеет решающее значение для успеха проектов машинного обучения. От понимания происхождения набора данных до обмена результатами и учета воздействия — вам необходимо задавать важные вопросы на каждом этапе проекта. Таким образом, вы можете выбрать лучший набор данных для своего проекта, избежать каких-либо предубеждений или ограничений и достичь желаемых результатов.

Связаться с автором

Если вам понравилась эта статья и вы хотите оставаться на связи, не стесняйтесь подписаться на меня в Medium и связаться со мной в LinkedIn. Я хотел бы продолжить разговор и услышать ваши мысли на эту тему.

Использованная литература:

https://knowingmachines.org/critical-field-guide