Что Лео Брейман пытался передать в своей исследовательской статье: Статистическое моделирование - две культуры?

Это был вопрос, заданный на Quora. Я также публикую здесь свой ответ, так как он подчеркивает важные и полезные концепции. Я считаю, что сообщества специалистов по статистике и машинному обучению могут извлечь выгоду из понимания различий и возможностей этих двух ведущих подходов к использованию данных.

Брейман утверждает, что в анализе есть две различные культуры, и что одна из этих культур способна решать более интересные и актуальные проблемы. Одна культура исходит от основного статистического сообщества, а другая - от сообщества машинного обучения. Различие между этими культурами проистекает из различия между «моделью данных», используемой в основном статистиками, и «алгоритмической моделью», используемой практиками машинного обучения. Сравнение того, как эти модели пытаются раскрыть черный ящик природы, возможно, является одной из самых важных тем современного анализа и, как я расскажу позже, разработки интеллектуальных продуктов завтрашнего дня.

Черные ящики и сложность

Есть 2 причины для анализа данных; один - понять лежащие в основе механизмы, управляющие наблюдаемыми нами явлениями, а другой - использовать полученный нами анализ для прогнозирования. Чтобы достичь понимания и / или предсказания, ученый должен попытаться воссоздать черный ящик природы; метафора скрытого набора «правил», которые природа использует для производства того, что мы наблюдаем. Возможность воссоздавать черные ящики приходит к нам в виде моделей, которые представляют собой лучшую попытку ученого приблизиться к тому, как природа принимает входные данные и производит выходные.

Такие вопросы, как, например, как работает Солнце, что такое черная дыра, сколько в ней элементарных частиц, откуда берется масса, как образуются ураганы и что вызывает рак, - все это существует, потому что это то, что мы наблюдаем и хотим понять. более глубоко и точно предсказывать. Это также верно для вопросов, касающихся того, как люди узнают предметы, общаются с другими, производят потомство, решают купить латте, совершают преступления, пишут ответы на вопросы Quora и создают музыку. Все эти вопросы можно рассматривать как входы, становящиеся выходами, где входами могут быть частицы, волны, атомы, клетки, язык или действия, а выходами - объекты и процессы, которые мы наблюдаем. Каким-то образом наш мир может преобразовывать различные входные данные в выходные данные, и воссоздание этого преобразования с помощью моделей, помогающих объяснять и предсказывать явления, - вот что такое наука.

Важное качество черного ящика природы состоит в том, что невозможно точно знать, как происходит преобразование от ввода к выводу. Если мы согласимся с фальсифицируемостью научных теорий, тогда не может быть окончательного ответа на вопрос, как происходит это преобразование, только более совершенные модели, которые дают более точные приближения. Если оставить в стороне все философские дебаты, существует свойственный предел тому, что люди могут объяснить, из-за большой размерности (многие способствующие факторы), вовлеченной в преобразование входов в выходы. Другими словами, мир чрезвычайно сложен, и любая попытка его моделирования должна абстрагироваться от сложных механизмов, производящих то, что мы наблюдаем. Эта абстракция гарантирует, что наши модели всегда будут приближенными в наших попытках понять мир.

Модель данных против алгоритмической модели

Модель данных можно рассматривать как модель, которую создают люди, в которой эти люди являются статистиками и учеными, которые стремятся разработать элегантное приближение к наблюдаемому. Используя свои знания математики и статистики и основываясь на том, что было использовано для решения аналогичных задач, человек решает, какая модель наиболее точно имитирует представляющий интерес неуловимый черный ящик. Брейман утверждает, что это пример модели, предшествующей проблеме (и данных), и что выводы, которые мы делаем из этого подхода, больше ориентированы на механизм модели, чем на механизм природы. Модель данных становится ценным достоянием ее создателя и продвигается за счет изощренности ее математики, а не за счет ее чистой способности объяснять или предсказывать природу. Брейман утверждает, что это наивно и даже опасно в отношении политических решений, основанных на этих моделях. Кроме того, Брейман утверждает, что использование моделей данных также мешает статистикам работать над интересными и разнообразными проблемами, поскольку эти проблемы могут показаться выходящими за рамки основной статистики.

Алгоритмическая модель использует другой подход. Вместо того, чтобы люди работали над какой-то элегантно разработанной моделью, используются алгоритмы, чтобы попытаться воссоздать преобразование ввода в вывод. Для разработки самих алгоритмов по-прежнему используется много математики, но, как только эти алгоритмы будут освобождены, они каким-то образом найдут способы преобразовать различные входные данные в наблюдаемые нами выходы. В некотором смысле алгоритм использует компьютеры для «лучшего» приближения или копирования черного ящика природы, неустанно пытаясь преобразовать необработанные входные данные в выходные, пока не обнаружит, как это сделать. Бурный рост вычислительной мощности, обилие данных в последнее время и креативный дизайн алгоритмов обучения сделали это мощным подходом к решению проблем с данными.

Это просто многовековой дизайн, а не дискуссия на основе проб и ошибок, когда мы выбираем дизайн при использовании моделей данных и метод проб и ошибок при использовании алгоритмических моделей; последнее - методом проб и ошибок, выполненным алгоритмом, а не людьми. В обоих случаях мы остаемся с моделью, но с алгоритмической моделью мы позволяем данным и проблеме вести решение, а не предполагаемой элегантности наилучшего предположения статистика. Брейман утверждает, что алгоритмические модели - единственный способ позволить данным говорить и направить анализ в сторону более точного и полезного воссоздания черного ящика природы.

Переменная важность и причинно-следственная связь

Разрыв между двумя культурами анализа сводится к интерпретируемости моделей, которые у нас остались. Статистики вышли из лагеря умозаключений, где большое значение придается способности модели делать выводы, какие факторы производят то, что мы наблюдаем. Специалисты по машинному обучению уделяют основное внимание предсказательной способности моделей, при этом значение придается способности модели точно предсказать, что некоторые явления будут делать дальше. Наука всегда была озабочена как объяснением, так и предсказанием, где наши объяснения помогают нам понять, почему и как что-то происходит, а наши предсказания позволяют нам предвидеть, что произойдет.

Но объяснение и предсказание тесно связаны друг с другом, и на определенном уровне их различие является ложной дихотомией. Ученые используют предсказание как прокси для понимания, поскольку нет ничего более показательного, чем когда ваша модель способна точно предсказать, что будет дальше. Другими словами, если и природа, и ваше воссоздание ее завтра производят один и тот же результат, вы, вероятно, столкнетесь с чем-то, когда дело доходит до аппроксимации механизма, с помощью которого природа преобразует входные данные в выходные. Брейман утверждает, что предсказание - это самый верный признак того, что мы на правильном пути, и поэтому его следует использовать как путеводный свет на пути к пониманию. Предсказание - это указатель на толкование.

Чтобы это было так, мы должны быть осторожны с тем, как мы используем слово «интерпретируемый». Брейман говорит, что в анализе «цель не интерпретируемость, а точная информация». Это немного расплывчато, но он намекает на то, как прогнозные модели лучше помогают нам информировать нас о том, какие функции важны. Например, если удаление признака из данных снижает предсказательную силу модели, возможно, это было важно. Вместо какой-то элегантной теории о том, как функция в данных играет свою роль, тот факт, что прогнозирование ухудшается после удаления функции, дает нам ценную информацию о ее роли в процессе.

Ни статистическое сообщество, ни естественные науки не пришли к единому мнению о причинно-следственной связи, но Брейман настаивает на том, что «чем более точна с точки зрения прогноза модель, тем больше можно верить в переменные, которые она считает важными». Брейман говорит, что «алгоритмическая модель может дать больше [,] надежной информации о структуре отношений между входами и выходами, чем модели данных.

Брейман также обсуждает дилемму Оккама, где, хотя в науке часто отдается предпочтение простоте, правда в том, что «простые и интерпретируемые функции не дают наиболее точных предикторов», и что «модели, которые лучше всего воспроизводят природу с точки зрения точности прогнозов, также являются самый сложный и непостижимый ». Брейман говорит, что «в научных областях, помимо статистики, ответы на вопросы основываются на извлечении информации из все более сложных и точных моделей».

Определение интерпретации

Нам нужно глубоко подумать об интерпретируемости слова. Как обсуждал Закари Липтон в своей статье «Мифы интерпретируемости моделей», этот термин относится к нескольким концепциям и изменяется в зависимости от контекста. На высоком уровне понятие интерпретируемого, кажется, указывает на доверие к моделям, но доверие может означать разные вещи. Если вы видите, что кто-то неоднократно принимает правильные решения, вы можете начать доверять этому человеку принятие решений. Но в этом случае предсказуемости модели будет достаточно, поскольку алгоритмические модели проверяются на данных, на которых они не были обучены. Другими словами, мы уже делаем все возможное, чтобы выбрать модели, которые показывают, что они хороши в принятии интересующего решения. Таким образом, доверие к моделям на самом деле не проблема, а скорее проблема в обеспечении того, чтобы те, кто использует аналитику в наших продуктах данных, знали, как модели обучаются и тестируются.

Конечно, существует целый комплекс машинного обучения, которое осуществляется без учителя без явного определения точности, хотя здесь цели анализа другие. Неконтролируемые подходы помогают найти структуру в данных и уменьшить большие измерения, а не производить необработанный прогноз. Поскольку выходы в неконтролируемом обучении - это новые представления данных, а не, скажем, один предсказанный класс, интерпретация уже доступна (просто исследуйте обнаруженные представления данных). В случаях, когда неконтролируемое обучение используется для предварительной обработки данных для прогнозной модели, мы, в худшем случае, остаемся в том же положении, что и в случае с прогнозирующими моделями, и в лучшем случае можем использовать интерпретируемость того, что было изучено при предварительной обработке, в сочетании с необработанный прогноз на основе классификации (например, если выполнение классификации в одном кластере повысило точность, мы можем посмотреть на отличительные характеристики этого кластера).

Существует идея, что термин «интерпретируемый» может означать понимание того, как работает сама модель. Хотя мы можем понять общую эвристику алгоритма обучения (в конце концов, кто-то разработал алгоритм), иметь какое-либо представление о том, как достигаются результаты, является безнадежным делом, поскольку алгоритмические модели в машинном обучении работают в более высоких измерениях, чем могут быть визуализированы или восприняты человеческий разум. Другая возможность - придать некоторую интуицию параметрам модели или, возможно, функциям, которые она использует, но как только кто-то движется к очень большому количеству параметров и / или функций, это тоже теряет смысл, как утверждают и Брейман, и Липтон.

Что это значит для науки о данных

В науке о данных основная цель - превратить машинное обучение в продукты, которые могут использовать люди и организации. Это означает, что машинное обучение в науке о данных делает больше, чем просто делает хорошие прогнозы. В науке о данных машинное обучение берет на себя часть обучения, которое связывает необработанные данные с решениями, принимаемыми людьми, и поэтому специалисты по данным несут ответственность за подключение того, что было изучено с помощью машинного обучения, к конечному пользователю продукта.

Будущее науки о данных не в том, чтобы рекомендовать фильмы или повышать рейтинг кликов (хотя я уверен, что он все еще будет существовать здесь), а в том, чтобы помогать врачам диагностировать пациентов и улучшать уход за ними, помогая городским планировщикам оптимизировать их проекты, помощь юристам в разработке эффективных судебных стратегий, предоставление коммунальным предприятиям возможности разумно адаптировать свои сетевые операции и создание более интеллектуальных транспортных систем. В этих и других приложениях участвуют люди, ответственные за принятие стратегических решений, и эти решения необходимо защищать перед заинтересованными сторонами в организации. Необходимость интерпретируемости не подлежит обсуждению, поскольку она имеет решающее значение для широкого внедрения продуктов, использующих машинное обучение. Что вызывает споры, так это значение слова «интерпретируемый», которое обсуждали и Брейман, и Липтон, и способы наилучшего достижения баланса между интерпретируемостью и предсказательной силой.

Если мы должны менять местами данные, которые наши модели используют для обучения, и наоборот, как это достигается? Некоторые алгоритмы до некоторой степени это делают, но это ограничивает нас ограниченным числом алгоритмов; вряд ли респектабельный подход к анализу. А что происходит, когда количество функций исчисляется тысячами? Что, если сами по себе необработанные функции менее важны, как в глубоком обучении? Что же тогда означает толкование? Как специалисты по данным могут использовать прогнозы как путеводную звезду для создания надежной модели, демонстрируя при этом наиболее важные функции? Это самая большая проблема любого реального проекта в области науки о данных и продуктов, созданных на основе этих усилий.

Я считаю, что следующим большим нововведением в машинном обучении будут не более предсказуемые или масштабируемые алгоритмы, а подходы к творческому сочетанию интерпретируемости с предсказанием. Эти две цели всегда были целью любой науки, и завтрашние информационные продукты должны будут обеспечивать этот баланс, если они приносят реальную пользу тому, что имеет значение; люди, которые их потребляют.

«Это серьезная ошибка - теоретизировать до того, как есть данные».

-Шерлок Холмс

Этот пост впервые появился как ответ на Quora.