В прошлом году я начал серию дискуссий с людьми, работающими в промышленности и научных кругах, которые так или иначе серьезно взаимодействовали с дисциплинами машинного обучения. Из них не вышло ничего особенно значительного, и как таковые они существуют как прелюдии к какому-то будущему, более сложному анализу.

Поскольку читатель может самостоятельно проверить все обсуждения по приведенной выше ссылке, нам лучше рассмотреть то, что нельзя сказать в рамках такого обсуждения.

Поэтому, в интересах (частично) заполнения пробелов, мы можем взглянуть на несколько вопросов, поднятых вне этих обсуждений:

  1. Почему такой осторожный подход к захватывающим, развивающим интеллектуальным усилиям?

Во-первых, следует сказать о роли консенсуса и популярности в науке. Проблема заключается в том, как подойти к критической оценке популярной науки и определить, совпадает ли она с хорошей наукой. (Ученый-первопроходец в области компьютерных наук Дональд Кнут утверждает, что они, как правило, имеют тенденцию к расхождению, и призывает молодежь стремиться к последнему, а не к первому.) Очевидная формулировка проблемы заключается в фразе, которую недавно употребил физик Майкл Берри, когда я настаивал на его предмет: он предположил, что это может быть подходящим предметом для социологии науки.

Мы обсуждали критику Максвеллом квартернионов. Известно, что Максвелл, изучая существующую математику в поисках подходящей основы для математической теории электромагнетизма, обнаружил, что у него совершенно нет способностей; это побудило его изобрести то, что мы сегодня называем векторным исчислением. Максвелл понял, что ему нужна алгебра трех- или четырехмерных величин для моделирования компонентов электрических и магнитных полей по мере их эволюции в пространстве и времени. Самой известной парадигмой, предложенной математиками начала девятнадцатого века для помощи в работе с величинами такого рода, была гамильтоновая теория квартернионов. Их новизна и относительная хорошая репутация гениальных изобретений в серьезной математике побудили Максвелла проверить их полезность в стоящей тогда задаче — и он нашел их совершенно неэффективными. Его критика гениального изобретения Гамильтона обрекла квартернионы на жизнь в тени, томясь в сносках малоизвестных математических комментариев в течение следующих нескольких десятилетий, пока физики не открыли их заново в 20-м веке.

Профессор Берри полагал, что ответственность за эту судьбу может быть частично возложена на Гамильтона, чьи рукописи обнаруживают поразительный беспорядок идей, сквозь который опытный глаз мог лишь смутно различить связное представление. Потребовалась опытная рука Тейта, чтобы убрать из большей части работ Гамильтона впечатление, что они были задуманы из садистского желания сбить с толку своих читателей. Предполагается, что со стороны Гамильтона потребовались некоторые усилия, чтобы сформулировать свои концепции в разумно удобочитаемом виде, что могло бы спасти их от тени. Возможно, его неспособность достаточно популяризировать свою работу, возможно, уже осудила их, прежде чем Максвелл получил возможность изучить ее.

Остается только отметить, что, хотя могут быть и такие обстоятельства, лежащие в основе изучения и развития науки, это несомненно трагично, что это так. Поскольку наука занимается изучением универсальной истины, забота об этой истине, а не о моде, безусловно, должна руководить нашей оценкой различных парадигм — элементарный моральный принцип в научная мысль.

Во-вторых, основы современной науки имеют в качестве основополагающего принципа выяснение и проверку «народных» идей. В своих Principia Ньютон описал «пространство», «время», «движение» в следующих весьма значимых терминах:

. . . Я дал определения таких слов, которые менее известны, и объяснил смысл, в котором я хотел бы, чтобы они понимались в следующем рассуждении. Я не определяю Время, Пространство, Место и Движение как общеизвестные. Только я должен заметить, что простые люди понимают эти количества не под каким-либо другим понятием, а исходя из отношения, которое они имеют к чувственным объектам. И отсюда возникают определенные предрассудки. . .

Если эти слова трудно разобрать, читатель может с тем же успехом обратиться к начальным словам статьи Тьюринга, чтобы найти относительно современную формулировку по существу того же принципа:

Предлагаю рассмотреть вопрос «Могут ли машины мыслить?» Начать следует с определения значения терминов «машина» и «мышление». Определения можно было бы сформулировать так, чтобы, насколько это возможно, отражать нормальное употребление слов, но такое отношение опасно. трудно избежать вывода, что смысл и ответ на вопрос «Могут ли машины мыслить?» следует искать в статистическом обзоре, таком как опрос Гэллапа. Но это абсурд. Вместо того, чтобы пытаться дать такое определение, я заменю этот вопрос другим, который тесно связан с ним и выражается в относительно недвусмысленных словах…

Чтобы лучше понять принцип, мы можем рассуждать следующим образом.

Ньютон предупреждает нас, что, когда он говорит о «движении», он не использует это слово в том смысле, в каком оно «обычно» используется, поскольку оно используется подавляющим большинством из нас в самых разнообразных контекстах и ​​ситуациях. Вместо этого он использует это слово для обозначения числовой величины, полученной путем умножения измеренной массы и скорости, связанной с некоторым телом (то, что мы сегодня назвали бы его импульсом). Его выбор слова «движение» для обозначения этой математической величины действительно , отчасти мотивированный «общепринятым» использованием этого слова, в том смысле, что мы можем интуитивно сказать, что любая величина, которая стремится измерить «количество» движения в теле, увеличивается с его скоростью и, возможно, также с его массой (при условии, что эти два были уже удовлетворительно определены для нас.) У нас есть бесконечность выбора математических формул, аргументирующих массу и скорость, которые удовлетворяли бы этому простому критерию. Если мы возьмем, к примеру, простую формулу Ньютона, мы можем на мгновение обрадоваться тому, что выбрали определение, полностью согласующееся с нашей интуицией. Дальнейшее рассмотрение, однако, позволяет обнаружить, что наше определение приводит к тонким выводам о «движении», которые не удовлетворяют нашу интуицию. Например, мы можем интуитивно ожидать, что наше определение различает движение шара для боулинга, катящегося со скоростью 2 м/с, примерно по прямой линии, и движение мяча для гольфа, движущегося со скоростью 124 м/с, по той же линии. Однако в определении Ньютона этого нет, и «движение» обоих оказывается идентичным. (Большинство ученых согласны с тем, что название Ньютона выбрано неудачно, и с тех пор оно было заменено термином «импульс». Теперь используется термин «движение» с определением, которое действительно проводит различие между двумя ситуациями, упомянутыми выше.)

За свою глубокую и краткую формулировку целей науки и за то, что таким образом он открыл век современной науки, Ньютон более чем заслуживает этой великой дани от Уильяма Вордсворта:

…Я мог видеть

Преддверие, где стояла статуя

Ньютона с его призмой и безмолвным лицом,

Мраморный указатель разума навсегда

Путешествие по странным морям мысли в одиночку.

2. Почему это постоянное обращение к идеям докомпьютерной эпохи? Можете ли вы изложить эти наблюдения в терминах, более подходящих для эпохи цифровых технологий?

Да, следующим образом.

Профессор Кнут определяет умение справляться с неравномерностью как один из ключевых навыков ученого-компьютерщика, имеющего дело со сложной ситуацией, требующей типа «случай один — …, случай два — …». анализ. Это говорит о принципе, хорошо понимаемом в вычислительной технике, но облеченном в разные формы. Среди молодежи это можно найти в принципе «вычислительной несводимости» странствующего технического директора Стивена Вольфрама: в природе должны существовать закономерности, которые не вписываются в какую-то простую модель, — утверждение столь же очевидное, как тот, который предполагает, что существуют звуки, отличные от мелодии. Люди, посещавшие среднюю школу почти в любое время за последние 50 лет, могут вспомнить тесты на способности, которые неизменно содержат вопрос типа:

Найти следующее число в последовательности:2, 4, 6, 8,.…?

Я помню, как читал в колледже учебник реального анализа, в котором автор поспешил указать, что, несмотря на то, что те, кто задавал вопрос, ожидали ответа «10», не по годам развитому студенту вполне можно извинить выбор:

2(5–2)(5–3)(5–4)/(1–2)(1–3)(1–4) + 4(5–1)(5–3)(5–4)/(2–1)(2–3)(2–4) + 6(5–1)(5–2)(5–4)/(3–1)(3–2)(3–4) + 8(5–1)(5–2)(5–3)/(4–1)(4–2)(4–3) = -22

потому что интерполяция Лагранжа даст вам этот ответ. Конечно, этот студент будет в некотором смысле более оправданным, если он или она зарезервирует интерполяцию Лагранжа для вопроса вроде:

Найти следующее число в последовательности:74,11, 831,142, 0,197, 4572,1,…?

Любой, кто посвятил более двух секунд серьезному размышлению о компьютерах и программах, поймет, что вторая проблема лучше всего решается с помощью того, что в бизнесе называют таблицей поиска, списком в в котором хранить эти числа, когда мы не можем найти способ определить в них осмысленный шаблон, например последовательность простых чисел. Программист может продолжать искать этот еще не идентифицированный шаблон, одновременно используя один из нескольких стандартных методов для эффективного сохранения этих чисел в памяти компьютера.

Все честные оценки новых методов в машинном обучении и т. д. группируют их вместе с этими стандартными методами по их цели: сжатие больших объемов данных ради грубой экстраполяции. Не построение модели явлений, связанные данные которых передаются этим методам.

****

Еще многое предстоит обсудить; продолжение неизбежно...