Что не так с наукой о данных?

Это время больших ожиданий для науки о данных. Эта область была провозглашена источником экономического динамизма и перемен наравне с индустриализацией и электрификацией. Инструменты, которые он предлагает, достаточно молоды, чтобы существовало множество возможностей для создания ценности с их помощью, но также достаточно зрелы, чтобы ограничения были в значительной степени функцией воображения, а не техническими по своей природе.

Именно по этой причине я считаю, что настало время для всей области сделать шаг назад и заняться честным самоанализом. Я знаю: никогда не бывает весело, когда тебя критикуют, но важно знать, что говорят критики — либо для того, чтобы насладиться их неправотой, либо для того, чтобы извлечь выгоду из возможности перестать совершать ошибки, которых можно было бы избежать. И, скажем прямо, наши методы могут быть мощными, но они далеки от совершенства. Более того, каждая из революций, с которыми сравнивается наука о данных, принесла огромную пользу, но также и большой вред (например, загрязнение окружающей среды, гибель автомобилей, киберзапугивание и т. д.), и если мы собираемся изменить мир, то на нас, чтобы немного подумать о том, как это будет выглядеть, когда мы закончим.

Итак, я молодой специалист по данным, а не философ науки и не специалист по технической этике, но у меня есть опыт в социальных науках и совесть, и у меня есть некоторые мысли:

Наука о данных является продуктом прекрасного союза информатики и статистики, но это не единственные области, которые пытались решать проблемы реального мира с помощью количественных методов и осведомленности об инструментах и достижениях, предлагаемых другими отделами (в частности, эконометрика). серьезно не хватает.
Я озадачен и встревожен чувством покорности, которое окружает вопрос о предвзятых моделях. Кажется, все признают, что это серьезная проблема — угроза моральному положению всей области — но если предпринимаются срочные и систематические усилия по поиску решений, то я об этом не слышал. Более того, я твердо верю, что это не непреодолимая проблема. Во-первых, было бы несложно создать стандартную рабочую процедуру тестирования моделей на наборах данных, включающих группы, находящиеся в неблагоприятном положении, и выявить несопоставимые результаты до их запуска. С другой стороны, исправление предвзятости в наборах данных также не является методологически неизведанной территорией: методы существуют в дисциплинах количественных социальных наук. Если я не ошибаюсь, это то, что будет решаться потом, а не вдохновением — так что давайте приступим.

Впрочем, хватит обо мне. Я приложил все усилия, чтобы прочитать все значимые книги по науке о данных с тех пор, как начал работать в этой области, и спустя 30 с лишним томов я бы назвал эти пять книг вершиной критики науки о данных (для меня 1–3 обязательна к прочтению для всех практиков).

Оружие математического разрушения: как большие данные увеличивают неравенство и угрожают демократииКэти О’Нил
Иллюзия ИИ Гэри Смита
Гонка за технологиями: инструменты отмены смертной казни для нового кода Джима, Руха Бенджамин
Малые данные (Крошечные подсказки, раскрывающие огромные тенденции) Мартина Линдстрема
Перезагрузка ИИ (создание искусственного интеллекта, которому мы можем доверять), Гэри Маркус и Эрнест Дэвис

В них вы узнаете: об опасностях, присущих аутсорсингу решений, влияющих на жизнь людей, на алгоритмы, о вредных привычках и методологических недостатках в практике науки о данных, науке о данных как функции и инструменте, который работает в более широких социальных структурах и реалиях, важность признания того, что большие данные и машинное обучение — это всего лишь один из способов решения проблем, и скептицизм по отношению к идее, что мы находимся на пути к общему искусственному интеллекту.

Вот мои основные выводы из каждого:

Когда наука о данных создает инструменты, влияющие на жизнь людей, которые непрозрачны, работают в масштабе и не проверяются регулярно с использованием достоверных показателей, основанных на данных реального мира, эти системы могут нанести и уже причиняют огромный вред, который не оставляет их жертвам средства правовой защиты. Это самый известный текст в критике науки о данных.

Заниматься статистикой без теоретического обоснования изучаемой области (т. е. заниматься машинным обучением) чревато опасностями, особенно ложными корреляциями. Постоянно обновляете модель? Провести десятки или сотни тестов? Есть неплохая вероятность того, что ваша статистика — миражи. Подайте выходные данные функции в модель, использующую регуляризацию, и вы часто будете получать противоречивые результаты, которые в корне не соответствуют исходной формуле. Если у этой книги и есть недостаток, так это то, что в ней никогда не рассматривается существование перекрестной проверки k-кратности, но, тем не менее, это блестящая и необходимая статья.

Инструменты науки о данных могут быть новыми, но проблемы, которые они призваны решить, таковыми не являются; нельзя допустить, чтобы появление новых методов закрыло нам глаза на историю этих проблем, равно как и на несопоставимое расовое влияние наших попыток их решения. Небрежность может причинить столько же вреда, сколько и преднамеренное злодеяние. Инструменты, которые укрепляют и расширяют возможности расистских систем, проблематичны, даже если они выполняют отдельные задачи более эффективно или даже более справедливо. И еще много подобных инсайтов. Столь же читабельно и остроумно, как отрезвляюще и поучительно — настоящее проявление силы.

Наука о данных — не единственный источник информации. Данные — большие или нет — могут информировать нас только о том, что мы решили измерить в первую очередь. Тематические исследования, исследования на местах, задавание правильных вопросов и поиск отклонений могут быть столь же эффективными, если не более эффективными, при стремлении к трансформационным изменениям.

Наших нынешних методов и траектории машинного обучения будет недостаточно, чтобы вступить в эпоху истинного, универсального и гибкого ИИ. Сегодняшнее машинное обучение является мощным, но слишком узким, хрупким и глупым, чтобы превратиться в искусственный интеллект, который оправдывает свое название. Если ОИИ вообще является достижимой целью, необходимы нисходящие абстрактные рассуждения, которые оценивают контекст, понимают язык и понимают причинно-следственные связи, и, по мнению авторов, это будет означать смешивание существующих методов с экспертными системами.

Что не так с наукой о данных?

Вопросы по теме