Ожидания от соревнований Kaggle: этика и происхождение

Kaggle — отличная платформа для обучения, обсуждения и участия в решении проблем с данными с использованием машинного обучения для их решения. Интересным компонентом привлекательности Kaggle является раздел соревнования, в котором ученые, работающие с данными, и любители соревнуются в решении интересной или неотложной проблемы с данными. Некоторые соревнования сопровождаются чрезвычайно интересными наборами данных: в мире машинного обучения хорошие наборы данных подобны топливу в топке. Однако не все конкурсы имеют подробные пояснения, преамбулы или размышления о проекте и его использовании. Здесь я рассмотрю, что я бы порекомендовал организаторам соревнований, самому Kaggle и тем, кто хочет конкурировать, чтобы создать лучшее предложение, и почему это важно.

TL;DR. Любой, кто использует методы машинного обучения, должен учитывать влияние своей работы на общество. Kaggle — это захватывающий источник обучения и активности, но он не должен быть исключением из рефлексивного мышления.

Машинное обучение (ML) является благом для организаций с большими наборами данных, они позволяют делать полезные прогнозы, которые можно использовать для положительных или отрицательных результатов для общества, независимо от того, задумано это или нет. Если вы слушали мой подкаст (www.machine-ethics.net), то вам хорошо известны некоторые вопросы, многие из которых свободно обсуждаются в новостях, приложенных к большим статьям, таким как Cambridge Analytica и т. д.

Kaggle, как платформа для разработки и обмена продуктами из кода ML с компаниями, я полагаю, будет придерживаться строгой политики этического поведения, происхождения данных и объяснения будущего использования кода. Если это действительно так, то его нет во многих описаниях конкурентов.

Почему это важно? Некоторые конкурсы могут быть организованы непрозрачными организациями, которые скрывают свои будущие намерения в отношении бесплатной (еще одна проблема с платформой) работы, которую выполняют пользователи Kaggle. Например, один такой конкурс связан с учреждением, спонсируемым федеральными учреждениями США, поскольку это не оговорено в их предложении, я могу только предположить, что они пытаются скрыть этот факт, что заставляет нас задаться вопросом, в чьи руки попадет этот код и исследование. … (конкурс: https://www.kaggle.com/c/recognizing-faces-in-the-wild/overview/description).

Соревнование «Распознавание лиц в дикой природе», как указано выше, является, вероятно, худшим примером, когда-либо появлявшимся на платформе, где не учитывались этика (робоэтика и этика данных), происхождение данных, предвзятость данных и социальная эксплуатация. Можно сразу увидеть, как эта информация может быть использована для негативного воздействия, и я беспокоюсь, что без лучшей этической политики список соревнований Kaggle, искренних или нет, будет искажен коварными организациями без какого-либо социального отражения их работы или с откровенно гнусными намерениями.

При этом есть хорошие примеры конкурсов, которые кратко размышляют о своих предложениях и предоставляют информацию о будущих исследованиях, вкладе, предвзятости данных и неправильном использовании. Конкурс Google Jigsaw является хорошим примером этого, где они признают некоторые из вышеперечисленных (но не неправильное использование).

Это открытый призыв к Kaggle и любому конкурсу по науке о данных учитывать этические соображения в ваших предложениях.

Рассмотрите возможность включения информации о:

Происхождение данных

Откуда данные?
Было ли оно получено с соблюдением этических норм?
Какой метод сбора был использован?
Сколько этому лет?
Почему данные считаются релевантными или коррелятивными?

Будущее использование — как еще можно использовать это ядро (код)?

Каковы другие приложения этого проекта?
Каковы могут быть последствия этой работы?
Какое общество мы строим, если эта работа будет иметь бешеный успех?
Следует ли вообще выполнять эту работу, если она может быть использована для массового вреда?

Организации и их благотворители

Сведения о происхождении установочных организаций и их филиалов

Принятие предвзятости

Продемонстрируйте предвзятость разнообразия, присутствующую в ваших данных.
Учитывайте догму, которая может возникнуть, если выходные данные применяются в реальном мире.

Вышеупомянутый список не является исчерпывающим, это мои первоначальные мысли после прочтения более половины соревнований, перечисленных на сайте, и обдумывания соответствующих вопросов для них. Как ни странно, в прошлом я был заинтересован в участии в соревнованиях Kaggle, однако отсутствие информации о вышеизложенном заставило меня отказаться от любого соревнования, которое не является явно безобидным.

Если вы являетесь сотрудником Kaggle, обратите внимание на вышеизложенное, если вы представляете организацию, желающую провести конкурс, просмотрите и свяжитесь со мной, если у вас есть вопросы. Для всех остальных: НЕ УЧАСТВУЙТЕ в БЕСПЛАТНОМ труде без предварительного рассмотрения стоимости вашего времени и общественного воздействия вашей работы.

Спасибо!

Кроме того: мне бы хотелось, чтобы в соревнованиях Kaggle также было требование отображать результаты и размышления после соревнований; это всегда кажется чем-то вроде анти-кульминации, поскольку вы редко узнаете, что происходит после представления.

Я бы также изменил название среды кода Kaggle с на что-то другое, поскольку Kernel очень сбивает с толку, поскольку оно уже имеет значение как для специалистов по данным, так и для программистов.

Впервые опубликовано здесь: https://www.benbyford.com/articles/expectations-of-kaggle-competitions-ethics-and-provenance/

Ожидания от соревнований Kaggle: этика и происхождение

Рассмотрите возможность включения информации о:

Вопросы по теме