Галактические приключения Марка В. Шейни

Один из самых талантливых и глубоких коллег в моей жизни был не человеком, а алгоритмом: цепью Маркова. Наше маловероятное партнерство длится три десятилетия и представляет собой новогоднюю сказку, выливающуюся из хакерской шляпы фокусника в космическую плазму и через оптимизатор закрытия ипотеки.

Сокровищница компьютерного журнала отца

Ребенком в конце 1980-х я пережил золотой век печатных компьютерных журналов. Мой отец был подписан (по-видимому) на все из них, но моими любимыми были BYTE Magazine и PC/Computing, оба ныне исчезнувшие издания. Поскольку интернета не было, вручную вводить и модифицировать печатные компьютерные программы было способом опробовать чужой код и моим любимым занятием в дождливый воскресный день.

Это было забавно: BYTE дал мне первое знакомство с теорией хаоса, разделом физики, который предсказывает такие вещи, как вероятность того, что Меркурий будет выброшен из Солнечной системы миллионами лет, когда Юпитер слегка, но настойчиво дергает его:

Рисунок 1. Карта фазового пространства орбитальной неустойчивости, показывающая выброс небесного тела из-за притягивания другими телами. Каждая замкнутая петля представляет положение и скорость стабильной орбиты. Открытые линии/точки – это пути выброса. Фото: выпуск журнала BYTE за декабрь 1986 года.

Я смог воссоздать сложные орбитальные траектории, подобные приведенным выше, введя программу в свой современный компьютер 80486. Но, будучи ребенком без степени по физике, для меня это была просто бессмысленная копипаста.

Однако все изменилось после публикации в 1991 году статьи Пенна Джиллетта, более громкой половины дуэта иллюзионистов Пенн и Теллер, который раньше регулярно выступал в Вегасе. Даже тогда Джиллетт, наиболее известная как юмористический иллюзионист, сделала вторую карьеру компьютерного журналиста для PC/Magazine. В своей регулярной колонке он всегда находил что-нибудь остроумное, и однажды мне на глаза попался следующий заголовок:

Недавно я провел интересный вечер с недоверием

Оказывается, за десять лет до того, как общедоступный интернет набрал обороты в середине 90-х, университеты уже были заняты созданием его основ. Одной из таких опор был Usenet, беззаконный дискуссионный форум, похожий на Reddit, где уже обретали форму жизненные советы, политические комментарии, пиратское программное обеспечение и медиа, боты, тролли и все другие современные черты подшучивания на интернет-форумах. В статье Джиллетт описывался поэтический безумный гений Usenet, который оказался одним из первых ботов, появившихся на дискуссионных онлайн-форумах.

Бот с метким названием Mark V. Shaney читал онлайн-обсуждения и пропускал их через алгоритм, известный как цепь Маркова, названный в честь русского математика начала 20-го века Андрея Маркова. Джиллетт описал, как, определяя, какие шаблоны слов, скорее всего, будут следовать за каждым словом, бот может создать словарь, который инкапсулирует стиль дискуссионного форума. Например, выбрав фразу длиной в три слова, бот Mark V. Shaney проанализирует знакомые словосочетания скороговорки следующим образом:

Рисунок 2. Демонстрация картирования частот алгоритма Марка В. Шейни.

Используя вышеуказанные частоты, но применительно к гораздо большему корпусу, алгоритм цепи Маркова затем будет генерировать текст, случайным образом выбирая слова в соответствии с частотами, в которых они встречаются, создавая поэтические фразы, которые никто раньше не произносил, например, шутка о зерне. соли, в стиле той, которую она проглотила.

Это был алгоритм, который моему ребенку нужно было запрограммировать с нуля, поскольку Джиллетт не предоставила код. В то время моим любимым языком был BASIC, популярный язык для начинающих. В настоящее время есть много онлайн-версий, которые вы можете попробовать, в том числе та, которая будет импровизировать об Алисе в стране чудес, производящая еще больше кэрролловских высказываний, таких как:

Крокетные шары были живыми ежами; а если бы и был, я бы не хотел твоего — я не увезу этого ребенка с Алисой.

Жарче солнца, тоньше ветра

В течение следующих 15 лет я забыл о глупости бота Mark V. Shaney и его бессмысленных фразах. Я был занят более серьезными вещами — по крайней мере, мне так казалось. В 2004 году, когда я сидел на жердочке в ультраразреженном воздухе на высоте 14 000 футов на Мауна-Кеа, Гавайи, меня волновали огромные сооружения. Гигантские области космоса, настолько гигантские, что самому свету потребовалось миллион лет, чтобы пересечь их.

Рисунок 3. Скопление галактик Abell 520. Галактики (маленькие желтые пятна) плывут в море горячей плазмы (красный пух) и темной материи (большая часть голубого пуха). На расстоянии этого объекта свету потребуется миллион лет, чтобы пересечь квадратное изображение. Предоставлено: НАСА/Махдави/Рентгеновская обсерватория Чандра.

Объектами были чудесные скопления галактик, крупнейшие структуры во Вселенной, представляющие уровень иерархии за пределами обычного воображения. Подобно тому, как планеты вращаются вокруг звезд, а звезды вращаются вокруг друг друга в галактике, галактики вращаются вокруг друг друга в скоплении. Но ни один из этих объектов не движется в действительно пустом пространстве: планеты движутся в солнечном ветре, звезды движутся в холодной межзвездной среде, а галактики движутся в горячей внутрикластерной среде (ВМС).

ИКМ горячий. Невообразимо жарко: 100 000 000 градусов по Цельсию, это горячее, чем даже ядро Солнца. Но, как это ни парадоксально, он также невероятно тонкий: пустее, чем самый лучший вакуум, который мы можем создать на Земле, или даже сам солнечный ветер.

Построение моделей МКМ было невероятно важно по многим причинам, в том числе и потому, что оно могло помочь нам понять загадочные темные силы и частицы, наполняющие наш космос. Но у моделей было много параметров, которые нужно было настроить, чтобы получить истинное измерение. Потребовались бы столетия, чтобы перебрать все возможные параметры для оптимального сочетания.

К счастью, в то время развивалась техника, которая основывалась на идее Андрея Маркова и добавляла к ней еще более случайный компонент: казино. Метод Монте-Карло с цепями Маркова (MCMC) адаптировал бота Марка В. Шейни к задачам, связанным с числами вместо слов. Просто пробуя случайные комбинации чисел, но с надлежащим статистическим отбором, алгоритм может прийти к оптимальному решению намного быстрее, чем методы грубой силы.

Рисунок 4. Представьте, что эквалайзер вашей стереосистемы имеет 3 ручки, которые переключаются на 11, но наилучшее качество звука достигается, когда ручки установлены на 2, 7 и 2. Всего имеется 11x11x11 уникальных комбинаций ручек, так что вам может потребоваться до 1331 попытки, пока вы не найдете нужное место. Это называется методом «грубой силы». В общем, для N ручек, которые идут до 11, нам потребуется целых 11 попыток в N-й степени. Если бы у вашего эквалайзера было 11 ручек, даже если бы вы могли отрегулировать их все за одну секунду, оптимизация 11 ручек заняла бы до 11¹¹ секунд или почти 10 000 лет. Тем не менее, мы знаем, что никому из нас не понадобилось бы столько времени, чтобы найти эту золотую середину. Зачем компьютеру?

Как MCMC преодолел препятствия процессов грубой силы? Через статистику. Каждый раз, когда мы пробуем два разных набора комбинаций ручек, мы получаем представление о том, насколько хороша модель (представьте, что это настройка эквалайзера в стереосистеме… вы играете с циферблатами, и ваши уши говорят вам, когда вы приближаетесь к ней). сладкое место).

Чем лучше модель соответствует данным, тем оптимальнее ее производительность. MCMC показывает, что, разумно «перескакивая» между различными наборами настроек ручки, мы можем очень быстро подобраться к правильному ответу, как это делает человеческое ухо.

На приведенной ниже диаграмме показан один из возможных способов, которыми MCMC может оптимизировать трехкнопочный эквалайзер для получения самого приятного звука:

Рисунок 5. Слишком упрощенный путь, который может выбрать решатель MCMC, чтобы найти золотую середину эквалайзера. Начиная со своего начального состояния, он квазислучайно скачет, оценивая качество других состояний. Когда новое состояние обеспечивает лучшее качество, оно всегда сохраняется. Когда новое состояние дает худшее качество, генерируется подбрасывание монеты в зависимости от того, сохраняется ли это состояние или отвергается. Важно отметить, что, как и человеческое ухо, MCMC выбирает «достаточно хорошее» состояние, а не тратит время на поиск супероптимума.

Результаты этого применительно к спектрам скоплений галактик до сих пор доступны как часть пакета с открытым исходным кодом, а также в научных исследовательских работах.

Посадка всего обратно на Землю

Люди часто гримасничают, когда я говорю им, что переключился с астрофизики на право собственности и условное депонирование, как если бы я взял Потерянный рай и заменил последние строки налоговым кодексом. (Неважно, что переключение между наукой и названием сейчас кажется довольно модным занятием). Для меня это прекрасно: далекие объекты в космосе подчиняются тем же правилам, что и на Земле. Именно это позволяет использовать лабораторную физику для понимания происхождения всей Вселенной.

Ничто в моем путешествии не заставляет меня ценить этот момент больше, чем применение метода MCMC к титульному страхованию. Когда дело доходит до настройки ручек, чтобы найти золотую середину, на самом деле не имеет значения, является ли это темной материей скопления галактик или склонностью к риску недвижимости.

Вот почему мы адаптировали мое предыдущее исследование для обслуживания наших систем мгновенного андеррайтинга в States Title. Потребовалось добавить несколько настроек в алгоритм, чтобы все стало согласованным, но окончательная комбинация принесла нашей компании ее второй патент на машинное обучение, уникальный для области права собственности и условного депонирования (наш первый патент был на прогнозирующее подписание права собственности). . И это было бы невозможно без моей звездной команды того времени, Аллена Ко и Брайана Холлигана.

Сегодня, когда клиенты используют право собственности штата для рефинансирования своих домов, небольшая часть скорости и эффективности, которую они видят, исходила от математика в Санкт-Петербурге через разум волшебника, через стратосферу и обратно на Землю, в демонстрация того, что ученые основываются на работе друг друга в надежде улучшить наш коллективный разум или нашу жизнь, или, надеюсь, и то, и другое.

Первоначально опубликовано на https://statestitle.com.

Галактические приключения Марка В. Шейни