От ночи бессонницы до победителя конкурса

Интервью с Мартином Бэрроном

Первоначально опубликовано: 01.08.2019

В прошлом году мы подняли наш ежегодный опрос в области науки о данных на новый уровень, передав результаты ВАМ через открытый конкурс ядер.

Мы были поражены откликом и качеством отправленных ядер. Кагглеры не только великолепные специалисты по данным, но и потрясающие рассказчики!

Мартин Бэррон был одним из тех, кто достаточно умел, чтобы взять наши данные и преобразовать их во что-то значимое - не только для Kaggle, но и для всего сообщества специалистов по науке о данных. Мы надеемся, что вам понравится знакомиться с ним так же, как и нам.

Поздравляю, Мартин с победой!

Чтобы узнать о победившем ядре Мартина, посетите страницу Гендерное разделение в науке о данных

Мартин, что вы можете рассказать о своем прошлом?

Я заместитель директора лаборатории Urban Labs Чикагского университета, где мы работаем с гражданскими и общественными лидерами, чтобы определить перспективные социальные программы и государственную политику. На моей нынешней должности я управляю командой из 15 талантливых аналитиков и специалистов по обработке данных, которые выполняют важную работу по тщательной оценке этих программ, чтобы убедиться, что они эффективны и действенны.

До моей нынешней должности я работал в крупной исследовательской организации, выполняя работу, очень похожую на эту задачу. Моя предыдущая работа часто заключалась в изучении необработанных результатов опросов, извлечении ключевых идей из данных и построении связного повествования на их основе.

Что побудило вас принять участие в этом, по общему признанию, нетрадиционном вызове?

Честно говоря, бессонница.

Однажды ночью я проснулся рано и наткнулся на конкурентов, ища чем заняться. После прочтения описания меня сразу же заинтересовала идея использовать набор данных для исследования гендерных различий в области науки о данных. Это тема, которая меня очень волнует, и набор данных Kaggle, похоже, предоставил уникальную возможность исследовать эту тему.

Честно говоря, меня также привлекла возможность еще раз «запачкать руки» анализом данных опроса. Моя текущая должность в основном управленческая, и когда у меня появляется возможность провести некоторый анализ, я обычно использую гораздо более ограниченные наборы административных данных.

Были ли какие-либо методы особенно полезными при проведении анализа?

Это соревнование, очевидно, сильно отличалось от других задач Kaggle, потому что не требовало машинного обучения. (Действительно, тот факт, что для этого конкурса не требовалось машинное обучение, - еще одна причина, по которой я решил принять участие, поскольку это означало, что у меня был шанс занять место!)

Хотя сборщик опросов удалил некоторые спам-ответы, я заметил, что были и другие записи, которые я считал заслуживающими удаления. В конечном итоге я удалил дополнительные записи, в которых более 80 процентов вопросов оставались без ответа или где респонденты тратили менее 5 минут, отвечая на вопросы. Хотя это привело к сокращению почти 7000 респондентов, я чувствовал, что результаты были бы сильнее, если бы эти (вероятные) нежелательные ответы были удалены.

Что было для вас наиболее важным пониманием данных?

Мои ранние наброски были намного длиннее, и в них использовалось гораздо больше вопросов, чем в моем окончательном варианте. К тому же они были намного скучнее. Так что, вероятно, наиболее важным моментом, который я получил, было то, что нужно было рассказать связную историю, просто выделив несколько ключевых моментов.

Были ли вы удивлены каким-либо из ваших открытий?

Я знаю, что не должен был удивляться, но, тем не менее, я был удивлен, увидев гендерные различия в заявленных зарплатах. Одно дело слышать, что средняя заработная плата женщин ниже, чем у мужчин; Другое дело - рассчитать это на основании имеющихся у вас данных и увидеть, как женщины зарабатывают 86 процентов от заработка мужчин.

Какие инструменты вы использовали?

Весь мой анализ для этого проекта проводился в R. После некоторого первоначального исследовательского анализа я работал исключительно в R Markdown, используя R-Studio.

Что вы вынесли из этого конкурса?

Мой главный вывод заключается в том, что мы, как дисциплина, должны делать больше. Как я сказал в своей записи: «Наша дисциплина молодая. Давайте же будем бороться за то, чтобы сделать эту профессию справедливой и равноправной не только для нынешних практикующих, но и для всех тех, кто будет им следовать ». Одна маленькая вещь, которую я собираюсь сделать, - это сделать пожертвование двум организациям, CoderSpace и App Camp for Girls, которые работают над тем, чтобы сделать информатику (и, соответственно, науку о данных) более инклюзивной. Это действительно отличные группы, и я призываю других поддержать их.

Мартин Бэррон - заместитель директора лаборатории данных и анализа криминалистических и образовательных лабораторий Городской лаборатории Чикагского университета. Urban Labs тесно сотрудничает с гражданскими и общественными лидерами, чтобы выявлять, тестировать и помогать масштабировать программы и политики с наибольшим потенциалом для улучшения жизни людей. Мартин получил докторскую степень. по социологии от SUNY Stony Brook. В настоящее время его исследования сосредоточены на обеспечении качества в области анализа и обработки данных.

От ночи бессонницы до победителя конкурса

Вопросы по теме