Инженерные истины

Три трюизма, которые на самом деле являются математическими фактами и заслуживают внимания:

  • Цепь настолько сильна, насколько ее самое слабое звено и зависимость от размера в инженерном проектировании.
  • Будьте проще и бритва Оккама
  • Нет ничего такого, как бесплатный обед, с более подробным обсуждением оптимизации, гиперпараметрического поиска, предвзятости и дисперсии (самая длинная часть статьи)

Цепь настолько прочна, насколько прочно ее самое слабое звено.

Прочность цепи зависит от ее самого слабого звена, поскольку в случае отказа цепь выйдет из строя и объект, который она удерживал, упадет на землю

Томас Рид (1785 г.)

Этот трюизм часто цитируется с точки зрения организационной динамики (сила команды зависит от ее самого слабого члена) и доказательств (ваш аргумент настолько силен, насколько сильна его самая слабая гипотеза). Хотя он имеет свои корни в философии и литературе, он имеет прямой и почти тривиальный физический смысл. Это тривиально, пока вы не начнете рассматривать инженерию и геолого-геофизические науки.

В 1926 году Пирс опубликовал статью об испытаниях на растяжение хлопчатобумажной пряжи, в которой сказал, что «это трюизм, математические выводы которого представляют немалый интерес, что прочность цепи определяется ее самым слабым звеном». Но Пирс не занимался численным моделированием, не работал в области механики горных пород или машиностроения. Инженеры делают все возможное, чтобы снизить концентрацию напряжений и неоднородность материалов. Острый угол может разорвать стальную балку. Производственный дефект металла может привести к отказу самолета. Практикующие инженеры знают, что неоднородность вредит.

Я инженер-геомеханик, поэтому проиллюстрирую это на примере разрушения горных пород в лабораторных испытаниях. Если вы закроете образец горной породы и протестируете его в силовой раме, разрушение всегда будет происходить из-за дефектов микроструктуры породы. Это само по себе интересно, но это имеет значение для прочности горных пород, когда мы масштабируем эти испытания до геологической среды (скажем, при проектировании туннеля или ствола скважины). По мере увеличения размера образца керна (скажем, с 25 мм до 75 мм) средняя прочность породы будет уменьшаться (Brace, 1961). Добавьте пару разрывов, и вы уменьшите его силу еще больше (Hoek, 1983). Добавьте разные материалы, и станет еще хуже (Tang, 1997).

Это трюизм, математические выводы которого не представляют особого интереса, что сила цепи - это сила ее самого слабого звена

Пирс (1926)

Когда дело доходит до случайных процессов и геомеханики, я думаю, что этот трюизм заслуживает внимательного рассмотрения. Редкие случаи (дефекты) на самом деле приводят к крупномасштабному поведению пряжи или камня. Хвосты распределения могут управлять поведением всей системы, когда она подвергается достаточной нагрузке. Это особенно верно, когда мы имеем дело с неудачей, но мы видим это явление в лавинах, крахах рынка и любой хаотической системе, в которой граничные условия имеют большое значение. Поэтому я не согласен с Пирсом, когда он считает, что математические выводы не представляют особого интереса. Вот несколько советов, как применить это на практике:

  • Обратите внимание на свои хвосты. В статистике мы можем измерить тенденцию распределений к отображению тяжелых хвостов с помощью эксцесса. Вам, вероятно, следует рассчитать это.
  • Распознавайте хаотические системы и обращайте особое внимание на границы. По мере сбоя системного подхода преобладают неоднородность и граничные условия. Осознайте риски, связанные с этими двумя движущими факторами отказа.

Будьте проще!

Объекты не следует без надобности умножать

Уильям Оккамский (возможно… ~ 1300 г.)

Этот трюизм имеет множество форм, от принципа «Keep It Simple Stupid» (KISS) до возможно неправильно процитированной фразы Эйнштейна «Все должно быть сделано как можно проще, но не проще». Как люди, мы склонны чрезмерно усложнять вещи и видеть закономерности там, где их на самом деле не существует. Поэтому мы используем этот трюизм, чтобы заставить наш разум вернуться к более простому объяснению или более простому образу действий. Часто это труднее, чем кажется (по крайней мере, для меня), и подобные трюизмы всегда приходится повторять в моей голове, когда я пытаюсь решить проблему.

Каково же мое удивление, когда я изучаю статистику и обнаруживаю, что не только это было систематизировано в аналитических кругах, но и что существует математическое доказательство использования бритвы Оккама. Абсолютно лучший справочник, который я могу порекомендовать для этого, - Теория информации, выводы и алгоритмы обучения Маккея. Вероятно, я мог бы потратить следующее десятилетие на изучение этой книги, но все равно не понял бы ее полностью. Но в главе 28 он рассматривает сравнение моделей и дает очень аккуратное объяснение бритвы Оккама.

Если несколько объяснений совместимы с рядом наблюдений, бритва Оккама советует нам покупать самое простое. Этот принцип часто пропагандируется по одной из двух причин: первая - эстетическая («теория с математической красотой более вероятна, чем u (Поль Дирак)); Вторая причина - это прошлый эмпирический успех бритвы Оккама. Однако существует другое оправдание бритвы Оккама, а именно: когерентный вывод (воплощенный байесовской вероятностью) автоматически воплощает бритву Оккама в количественном отношении

Дэвид Дж. Маккей (2003 г.)

Оказывается, бритва Оккама естественным образом воплощена в байесовском выводе. Я очень рекомендую книгу Джона Крушке Проведение байесовского анализа данных как хорошее введение в этот предмет (с кодом R / BUGS). Обсуждение бритвы Оккама в машинном обучении также предоставлено Расмуссеном и Гахрамани (2001) - двумя тяжеловесами в области машинного обучения и статистики.

Итак, как это повлияет на вас как на человека, принимающего решения, специалиста по данным или инженера? Что ж, делайте все как можно проще. Не используйте модели из двадцати параметров, если достаточно четырех параметров. Постоянно стремитесь исключить осложнения в процессе принятия решений. При построении моделей стремитесь к осознанной экономичности (стремлению выбрать самый простой и легкий путь). Это намного проще написать, чем применить на практике, но вот пара предложений:

  1. Всегда ищите коррелированные переменные. Если у вас есть приличная корреляция (скажем, ›0,6), отбросьте одну из переменных, потому что она часто достаточно хорошо объясняется другой.
  2. Рассмотрим байесовский вывод. Это прекрасный новый мир, и количественная оценка неопределенности и автоматическая экономия оправдывают вступительный взнос.
  3. Подсчитайте прогнозные переменные. Знайте, сколько переменных вы устанавливаете в модели. Подсчитайте их и сравните с количеством наблюдений, с которыми вам нужно обучить эту модель. Если у вас меньше 10 наблюдений на переменную… действуйте осторожно.

Нет такой вещи, как бесплатный обед

Я ... наткнулся на барную комнату, полную плохих фотографий Салона, на которых люди в шляпах на затылках собирали еду с прилавка. Это был институт «бесплатного обеда», который я выбил. Вы заплатили за выпивку и получили столько, сколько хотели. Менее чем за рупию в день человек может роскошно прокормиться в Сан-Франциско, даже если он банкрот. Помните об этом, если когда-нибудь застрянете в этих местах.

Редьярд Киплинг

Этот трюизм помогает напомнить нам, что в жизни или статистике нет ничего бесплатного, и опасаться вещей, которые кажутся хорошими правдой. За все всегда приходится платить, будь то компромисс между смещением и дисперсией в науке о данных, тяга к пиву после соленых закусок или альтернативные издержки при посещении этой бесплатной презентации.

Этот трюизм имеет два важных следствия для науки о данных. Во-первых, всегда существует компромисс между смещением и дисперсией. Во-вторых, не существует идеального алгоритма оптимизации или поиска. Каждая из этих тем заслуживает отдельной статьи, но здесь стоит рассмотреть их после определения смещения и дисперсии, поиска и оптимизации, а также функций затрат.

Компромисс между смещением и дисперсией невероятно важен в статистике и машинном обучении (статистика в масштабе). Я мог бы погрузиться в подробное объяснение, но Дэвид Далпиаз написал целую главу с фрагментами кода и моделированием, которые проходят по этому поводу. Посмотрите его главу Компромисс отклонения отклонения от кода из его книги Статистическое обучение, которая в настоящее время находится в стадии разработки. Подводя итог, смещение - это неточность вашего прогноза, сумма чистой ошибки в модели ожидаемого значения оценщика за вычетом фактического значения совокупности:

Дисперсия - это величина разброса в этом прогнозе по повторяющимся моделям или одиночному наблюдению (т. Е. Обусловлено одним наблюдением):

Вы можете увидеть компромисс смещения и дисперсии при переходе от простой к более сложной модели на рисунке Далпиаза ниже. Смещение показано синим цветом, отклонение - оранжевым, а ошибка - черным.

Поиск и оптимизация, возможно, являются наиболее важными функциями как в инженерном анализе, так и в машинном обучении. Разница довольно тонкая - мы ищем осуществимость (чтобы найти значения, которые работают) и оптимизируем для… оптимальности (чтобы найти лучшие значения из заданного набора ограничений). Методы оптимизации лежат в основе большинства численных анализов - будь то геофизическая инверсия, решение уравнений в частных производных или выбор лучшей пиццы для офисного обеда. Следовательно, существует множество знаний о различных методах оптимизации, некоторые из которых могут включать, например, градиентный спуск или нельдер-мид.

Смысл каждого метода оптимизации - найти наилучшие глобальные значения для конкретной функции, но для этого нам нужно определить функцию стоимости. Функция стоимости - это числовая метрика для оценки производительности модели. Под глобальным я имею в виду, что мы не хотим застревать в локальных оптимумах и хотим как бы найти «дно настоящей долины». Мы используем функции затрат каждый день, но не думаем о них с точки зрения оптимизации. В регрессии некоторые из них включают коэффициент корреляции, среднюю абсолютную ошибку или среднеквадратичную ошибку для функций регрессии.

Вернемся к трюизму бесплатного обеда не бывает. Дэвид Вулперт и его коллеги проделали отличную работу, математически обосновав теорему об отсутствии бесплатного обеда для оптимизации и машинного обучения. Они показали, что эффективность вашей оптимизации или шаблона поиска напрямую зависит от выбранной вами функции затрат (Wolpert, D.H. (1996), Wolpert, D.H., & Macready, W.G. (1997).). Вы можете спросить, почему это важно, но инженеры и специалисты по данным тратят много времени на оптимизацию и решение сложных уравнений. Теорема нет бесплатного обеда показывает нам, что действительно нет ничего бесплатного. Для одной задачи и функции стоимости случайный поиск может быть лучше, чем самый сложный алгоритм градиентного спуска, который мы можем вывести. Во-вторых, случайный поиск может быть ужасным и в тысячи раз медленнее. Поэтому, что, возможно, неудивительно для многих из нас, подробное знание нашей проблемы необходимо для ее эффективного решения.

Короче говоря, для эффективной оптимизации не бывает «бесплатных обедов»; любой алгоритм работает так же хорошо, как и знание функции стоимости, заложенной в алгоритм стоимости. По этой причине (и чтобы подчеркнуть параллель с аналогичными результатами контролируемого обучения) мы окрестили наш основной результат теоремой о запрете бесплатного обеда

Вольперт и Макреди (1996)

использованная литература

Брейс, У. Ф. (1961, январь). Зависимость трещиностойкости горных пород от крупности. В 4-м симпозиуме по механике горных пород (USRMS) в США. Американская ассоциация механиков горных пород.

Хук, Э. (1983). Прочность сочлененных горных масс. Геотехника, 33 (3), 187–223.

Киплинг, Р. (1899) American Notes. Генри Альтемус, Филадельфия.

Маккей, Д. Дж. (2003). Теория информации, логические выводы и алгоритмы обучения. Пресса Кембриджского университета.

Пирс Ф. Т. (1926) Испытания на растяжение хлопчатобумажной пряжи, В. Слабое звено, теоремы о прочности длинных и составных образцов. Дж. Tex. Inst., 17, 355–368.

Расмуссен, К. Э., и Гахрамани, З. (2001). Бритва Оккама. В книге Достижения в области нейронных систем обработки информации (стр. 294–300).

Рейд Т. (1788) Очерки активных способностей человека. Дж. Бартлетт.

Тан, К. (1997). Численное моделирование прогрессирующего разрушения горных пород и связанной с этим сейсмичности. Международный журнал механики горных пород и горных наук, 34 (2), 249–261.

Вольперт, Д. Х. (1996). Отсутствие априорных различий между алгоритмами обучения. Нейронные вычисления, 8 (7), 1341–1390.

Вольперт, Д. Х., и Макреди, В. Г. (1997). Нет теорем о бесплатном обеде для оптимизации. Транзакции IEEE по эволюционным вычислениям, 1 (1), 67–82.