Дэвид Вайнбергер

AI Outside In - колонка бывшего постоянного писателя PAIR Дэвида Вайнбергера, который предлагает свой взгляд со стороны на ключевые идеи машинного обучения. Его мнение является его собственным и не обязательно отражает точку зрения Google.

Допустим, вы орк из Властелина колец и купили копию Морка Орка Саурон: Наслаждение Нашего очень злого лидера от ведущего книжного интернет-магазина Мордора, Harnen Books. Когда вы вернетесь в этот магазин, он, вероятно, порекомендует вам больше книг, восхваляющих Саурона. Но если бы вы вместо этого извлекли книгу из публичной библиотеки, любезный публичный библиотекарь Pagewise the Orc, вероятно, порекомендовал бы вам другой набор книг в качестве следующего для вас.

Это потому, что алгоритмы Harnen Books нацелены на то, чтобы продать вам больше книг, независимо от того, о чем они, а история, здравый смысл и анализ данных показывают, что тот, кто покупает книгу, восхваляющую Саурона, с большей вероятностью купит другую, восхваляющую его, чем одну. разрывая его. Таким образом, у книжного магазина есть стимулы предоставлять «рекомендации наименьшего сопротивления».

Но Pagewise, будучи публичным библиотекарем, стремится к увеличению и улучшению гражданской активности даже в Мордоре, поэтому она может порекомендовать многие из тех же книг, что и книжный онлайн-магазин, но, вероятно, добавит что-то вроде: «Вы знаете, есть другая книга, которая, как мне кажется, может вам понравиться: Дни Шира: Жизнь среди хоббитов. Это Орк Ксорк, бывший сторонник Саурона, который отлично справляется с тем, чтобы представить, как наш любимый Саурон (да будет он править) выглядит с другой точки зрения ».

Но теперь предположим, что онлайн-магазин Harnen Books внезапно становится гражданским и хочет воспользоваться практикой Pagewise рекомендовать книги, которые расширят кругозор клиентов. В конце концов, несмотря на всю суматоху Средиземья, для людей становится все более важным выбраться из своих коконов и эхо-камер, понять другую сторону и посмотреть, есть ли какие-то общие основания для взаимопонимания. (Саурон не совсем согласен с этим, но у Harnen Books неожиданно вырос позвоночник.)

Для того чтобы книжный интернет-магазин мог это сделать, недостаточно, чтобы книжные магазины и библиотеки использовали алгоритмы, рекомендующие любую книгу, которая противоречит мнению читателя. Например, рекомендация Веселого Саурона: Великие убийцы хоббитов хоббиту будет столь же эффективной, как рекомендация орку Героический Леголас: Великий убийца орков. Нельзя просто швырять противоположные книги в эхо-камеры людей, потому что люди находятся в этих камерах именно для того, чтобы избежать противоположных мнений.

Вместо этого вам нужно будет сделать то, что делает библиотекарь Pagewise: рекомендовать элементы, которые достаточно разные.

Разные отличия

Если бы «достаточно разные» были просто количественной мерой различия, задача была бы простой. Увы, это не так. Полезные типы различий зависят от домена и человека, которому даются рекомендации.

Например, в случае рекомендаций книг цель может заключаться в том, чтобы расширить кругозор читателя, предлагая произведения того же жанра, которые открывают новые политические, культурные или литературные перспективы. Если читателю только что понравилась серия статей Исаака Азимова Foundation, библиотекарь может порекомендовать Starship Troopers Хайнлайна о цене имперской войны или Рассвет за размышления о войне и роли гендера и инаковости. Но рекомендации с разницей не обязательно должны быть в одном жанре: Вам может понравиться эта история Рима, на которой Азимов основал сериал. Или: Действие игры Shogun Джеймса Клавелла происходит в другом мире, но исторически реальном, но также о нескольких территориях, борющихся за власть. Или другой жанр того же автора: Вы читали какую-нибудь научно-популярную литературу Азимова? Он привносит такое же самоуверенное понимание в свое чтение Шекспира .

Да, некоторые из этих рекомендаций могут быть надуманными, но суть не в этом: сначала найти то, что достаточно отличается, означает иметь представление о соответствующих векторах различия.

Поиск правильного различия имеет решающее значение не только для рекомендаций по книгам, но и для новостных лент. Как обычно опасаются, новостная лента, которая направлена ​​только на то, чтобы держать глаза в фокусе потоков и пальцев, готовых щелкнуть предложенные ссылки, может укрепить существующие взгляды читателей, сузив их симпатии. Но простая вставка сообщений, которые не интересуют читателей, не заставит читателей прочитать эти сообщения; вы можете привести человека к капусте, но не можете заставить его есть. (Так было и до Интернета: читатели газет перелистывали чернильные страницы статей на темы, которые их не интересовали.)

Сайты, нацеленные на создание социальных связей, также должны объединять людей, которые достаточно разные, а не всегда пытаться объединить людей, которые наиболее похожи друг на друга. Сюда могут входить сайты знакомств, сайты социальных сетей и службы, оценивающие заявки на работу и поступление в колледж.

Подход «достаточно разных» применяется шире, чем просто рекомендации. К юмору относится еще один показатель - достаточно различий: шутки зависят от удивления и часто тем смешнее, чем сложнее их «уловить». Если растяжение будет слишком большим, шутка будет непонятной. Если растяжка слишком короткая, как в случае с ленивым каламбуром, шутка получает только быстрое фырканье или закатывает глаза. Шутки требуют достаточной разницы.

Итак, если мы сможем найти способ генерировать достаточно разные результаты, он может применяться не только к подсказкам для следующей книги или видео, которые могут вам понравиться, но также и к составлению потоков новостей и, возможно, даже к поколению. каламбуров, шуток и - кто знает - художественной литературы. В самом деле, это может быть ключом к прозорливости во многих областях.

Нейронные сети спешат на помощь?

Нужно ли нам обучать модели нейронных сетей, чтобы решить эту проблему?

Традиционно. простого статистического анализа шаблонов использования часто бывает достаточно, чтобы рекомендовать книги, фильмы и музыку. Например, если промордорская книга часто появляется в группе книг, прочитанных орками, но с некоторой минимальной частотой в группе книг, читаемых хоббитами, попробуйте рекомендовать эту книгу большему количеству хоббитов, особенно если эта книга имеет высокий рейтинг. немногочисленными хоббитами, которые его прочитали. Черт возьми, ты можешь даже попробовать порекомендовать его эльфам.

Это нормально, но это оставляет открытие на усмотрение кругов читателей, которые читают не из их круга. Если гипотеза эхо-камеры верна - многократное слышание одних и тех же мнений укрепляет и сужает взгляды, - тогда по мере того, как социальные пространства становятся более замкнутыми, круг открываемых книг также сужается.

Итак, как порекомендовать хоббитам книги, которые достаточно разные, но которые ни один из хоббитов еще не открыл?

Возможно, машинное обучение могло бы использовать рефераты книг, обзоры или даже полный текст книг для обучения модели прогнозированию существующей социальной кластеризации и особенно выбросов. Определите книги с выбросами, которые читают кластеры (книгу Саурона читают кластеры хоббитов), и проанализируйте их, ища результаты на основе сигналов в дополнение к социальным. Если машинное обучение может замечать закономерности в тексте книг или комментарии к ним, которые позволяют ему предсказать, какие книги-выбросы проникли во враждебные эхо-камеры, то, возможно, оно сможет определить книги, которые могут проникнуть в эти эхо-камеры, если их следовало рекомендовать.

Если это так, было бы интересно посмотреть, сможем ли мы узнать, что в книге позволяет ей добиться успеха в группах, которые с ней не согласны. Что отличает книгу от других? Конечно, модель машинного обучения может работать, не раскрывая своих секретов.

Но, как вы могли заметить, я не специалист по машинному обучению, хотя однажды я успешно обучил модель классифицировать фотографии пустынь и джунглей с точностью чуть севернее случайной.

Решение интуитивной прозорливости

Интуиция часто рассматривается как решение проблемы эхо-камер. Действительно, Касс Санштейн, который популяризировал идею эхо-камеры в серии книг, начиная с 2001 года, сам предлагает усиление интуитивной прозорливости как важную часть решения.

Тем не менее, объяснение Санстейна возникновения эхо-камер, похоже, исключает интуитивную интуицию как решение. Широко распространенный аргумент Санстейна состоит в том, что, поскольку люди, естественно, предпочитают читать то, с чем они согласны, если вы дадите им бесконечный набор вариантов чтения, то есть Интернет, они наполнятся утешительными идеями. Но если именно это привело к появлению эхо-камер, то выпуск еще большего количества вещей, с которыми люди не согласны, не заставит людей внезапно решить их прочитать.

Интуиция по определению - это приятный сюрприз. В случае рекомендации книги сюрпризом может быть отличие от того, что читатель обычно читает. Счастье в том, что работа доставляет удовольствие, несмотря на разницу или благодаря ей. Чтобы интуиция сработала, работа не может быть слишком удивительной. Это должно быть достаточно удивительно, достаточно отличным - как шутка.

Если алгоритмы могут действительно создавать интуитивную интуицию, машинное обучение может иметь значение везде, где важна интуиция. И это, пожалуй, почти везде.