Невидимые ловушки данных

Все дело в чтении между строк

Хорошо известно, что специалисты по обработке данных тратят гораздо больше времени на задачи подготовки данных (сбор данных, EDA и разработка функций), чем на моделирование машинного обучения. Хотя многие из нас, возможно, жаловались на этот факт, я думаю, что недооценка важности подготовки данных - особенно исследования данных - является ошибкой, которая может серьезно навредить вашим проектам машинного обучения, и что следует потратить немало времени на понимание и изучение данные перед тем, как перейти к реализации модели.

Проблемы данных в машинном обучении

Проблемы, возникающие в проектах машинного обучения, связаны либо с алгоритмами, либо с данными. Проблемы, связанные с алгоритмами, в большинстве случаев либо не соответствуют, либо не соответствуют обучающим данным. С другой стороны, проблемы, связанные с данными, очень разнообразны; Кроме того, они очень распространены в сегодняшних проектах машинного обучения в деловом мире - отсюда важность подготовки данных.

На самом деле все очень просто: производительность вашей программы во многом зависит от качества подготовки данных - никогда не забывайте одно из самых известных высказываний в области «мусор на входе, мусор на выходе».

Но подготовка данных не всегда проста. Помимо того, что у вас есть данные хорошего качества и достаточное количество данных, вам также придется решать некоторые другие проблемы, которые труднее выявить без глубокого понимания данных - это « невидимые ловушки данных ». И они несут ответственность за несколько ошибок и неверных предположений, сделанных специалистами по данным, которые не делают шаг назад, чтобы задать правильные вопросы. Вот две наиболее часто встречающиеся невидимые ловушки, которые я видел в своем бизнесе.

Ловушка корреляции / причинности

« Корреляция не подразумевает причинно-следственной связи ». Это должно быть первое правило, которому мы учим в Исследовательском анализе данных 101. Принятие корреляции для причинно-следственной связи - самая простая ошибка, которую можно сделать во время EDA, и эта тенденция на самом деле вполне понятна. Когда мы исследуем данные, мы ищем способы повысить предсказуемость наблюдаемых событий, и один из лучших способов сделать это - вычислить коэффициенты корреляции между различными функциями нашего набора данных. Но на самом деле мы ищем причинно-следственную связь, потому что это взаимосвязь между функциями, которая выходит за рамки обучающих данных. Поэтому, когда мы наблюдаем корреляцию, возникает соблазн выбрать самый короткий путь к причинно-следственной связи, который мы обычно делаем.

Если вам нужно доказательство того, что корреляция не подразумевает причинно-следственную связь, вы можете взглянуть на Ложные корреляции. Это сайт, на котором можно найти очень неожиданные и забавные корреляции. Вот пример.

Предубеждения, предубеждения везде

В то время, когда в нашем обществе массово внедряются системы машинного обучения и искусственного интеллекта, решение проблем, связанных с предубеждениями, имеет первостепенное значение. Особенно учитывая природу влияния алгоритмов на нашу жизнь - в настоящее время они могут определять, получаете ли вы ипотеку или работу. Вот почему тема справедливости в машинном обучении стала очень активной областью исследований в последние несколько лет.

Поэтому специалистам по данным следует обратить внимание на этот вопрос, потому что предубеждения могут легко проникнуть в системы машинного обучения и их довольно сложно выявить. Существует множество типов предубеждений, но их можно разделить на две категории.

Ошибки в данных: это ошибки в обучающих данных, на основе которых алгоритмы машинного обучения будут учиться и, таким образом, воспроизводить их в качестве выходных данных. Социальная предвзятость, расовая предвзятость, предвзятость выборки… вот примеры предвзятости в данных. Они могут быть вызваны нерепрезентативными данными или предвзятыми шаблонами, описанными в обучающей выборке, и они, безусловно, повлияют на вашу систему машинного обучения, заставляя ее плохо обобщать или изучать предвзятые шаблоны, которые будут воспроизведены в выходных данных. Для получения дополнительной информации о социальных предубеждениях я рекомендую вам взглянуть на статью Бертрана К. Хассани Усиление социальных предубеждений с помощью машинного обучения: перспектива кредитного скоринга.
Предубеждения у людей: это когнитивные предубеждения, существующие в нашем сознании. В самом деле, мы сильно переоцениваем нашу способность принимать правильные решения / суждения и избавляться от наших подсознательных предубеждений. Мы должны помнить, что у нас, как у отдельных людей, есть множество когнитивных предубеждений в зависимости от нашего индивидуального опыта, культур и т. Д. Поэтому в некоторых случаях люди могут делать очень разные - а иногда и противоположные - выводы из одного и того же. данные.

Вашему рабочему процессу машинного обучения требуется этап обзора исследования

Существует множество методов и инструментов EDA, направленных на автоматизацию и ускорение нашего подхода к исследованию данных. Но обратная сторона такого подхода состоит в том, что он увеличивает риск упустить из виду сложность данных и попасть в их невидимые ловушки.

Я обнаружил, что для решения этой проблемы лучше всего систематически включать этап Обзор исследований в рабочий процесс машинного обучения, во время которого вы можете сделать шаг назад, задать больше вопросов и пересмотреть сделанные вами предположения. о тренировочных данных.

На этом новом этапе также важно «исследовать за пределами набора данных». И я говорю не только о поиске в Google или поиске дополнительных данных, но и о том, чтобы выйти и поговорить с людьми:

проконсультируйтесь с экспертами в предметной области, чтобы получить больше знаний в предметной области,
взаимодействовать со своими клиентами, чтобы лучше понять их мотивацию,
поделитесь своими выводами с коллегами / друзьями, чтобы узнать другие точки зрения…

Потому что чаще всего данные говорят вам только что произошло, а не почему. И все мы знаем, что нет лучшего способа предсказать будущее, чем понять почему прошлого и настоящего.