Масштабирование искусственного интеллекта: часть 1

«Ваши большие пальцы научатся» — Стив Джобс

Крис Диксон поделился одной интересной историей о концепции «Сильная технология».

“

Во время медиа-тура в 2007 году, когда Стив Джобс показывал устройство репортерам, был один случай, когда журналист раскритиковал сенсорную клавиатуру iPhone.

«Это не работает», — сказал репортер. Джобс на мгновение остановился и склонил голову. Репортер сказал, что он или она продолжал делать опечатки, а клавиши были слишком малы для его или ее больших пальцев. Джобс улыбнулся, а затем ответил: «Ваши большие пальцы научатся».

”

Сильные технологии не адаптируются к текущей среде. Он создает новую среду, и люди адаптируются к ней. Интернет представляет собой сильную форму технологии[1] и является одной из «технологий общего назначения» среди 23 других экономистов Ричарда Липси и Кеннета Карлоу.

Сильные технологии формируют наше поведение, вознаграждая некоторые виды поведения. И мы адаптируемся к пути, ведущему к большему вознаграждению. И мгновенная обратная связь в качестве награды всего за несколько кликов.

В недавнем видео матча AlphaStar, соревнующегося с профессиональным игроком в StarCraft, единственная игра (из десяти), в которой профессиональный игрок выиграл, находится в среде, в которой игрок управляет моделью AlphaStar, чтобы придерживаться локальной оптимальной ситуации. Размышляя, мы остаемся в той же ситуации, когда называем это зависимостью.

Технология искусственного интеллекта — это также сильная технология и технология общего назначения, которая повысит производительность и глобально масштабируется, с ее версией того, каким может быть новый мир, вознаграждая некоторые из наших поступков и игнорируя многие другие.

Давайте посмотрим, как сильная технология «Интернет» сформировала нашу распределительную сеть и как сильная технология «Искусственный интеллект» могла бы сделать то же самое по-своему.

Эта серия состоит из трех частей. В этой части 1 исследуется идея функции как сетки распределения. Часть 2 исследует архитектуру распределительной сети. Часть 3 исследует протоколы связи.

Часть 1. Распределительная сеть
Часть 2: Сети сетей
Часть 3: Протокол о доверии

Распределительная сеть

У нас есть лошади, чтобы бежать по дороге для доставки важных грузов раньше. Но в наши дни мы не видим лошадей, бегущих по шоссе, чтобы доставить ваши посылки Amazon.

Распределительная сеть наших изобретений много раз заново изобреталась в нашей современной истории. Сегодня наша последняя распределительная сеть — это Интернет. Интернет масштабируется лучше, чем его предыдущее поколение, для массового рынка и распространяется по всему миру.

Как это масштабируется?

Интернет перемещает как можно больше состояний от своего ядра к своим краям, таким как мобильный телефон и сервер Netflix. А Интернет сохраняет минимальное состояние в сети для оптимизации инкапсуляции и маршрутизации.

Однако при ограниченных состояниях служб, использующих Интернет, как сервер узнает о состоянии соединения?

Файлы cookie сеанса
Информация для входа

Файлы cookie сеанса связывают вашу личность с браузером. А Google и Instagram могут рекомендовать продукты, которые вы недавно посещали.

Позже интернет-компания находит более выгодный путь путем восстановления личности и рекомендации. В розничной торговле они создают личность вашего клиента на основе вашего поведения в Интернете и истории покупок и рекомендуют вам продукты, которые вы, скорее всего, купите.

Благодаря этим двум основным, простым, но сохраняющим состояние технологиям подключения сеть распределения Интернета может отражать вашу личность и предсказывать ваш следующий выбор.

Когда вы знаете свою личность, вам легче предоставлять персонализированные услуги. Контекст персонализации находится на сервере. А загрузка текста и изображений по запросу требует минимального кэширования. Пользователь не чувствует большой разницы, но загрузка видео и аудио по проводу может иметь негативные последствия для пользователя. Как использовать соединение с отслеживанием состояния и распространять сервисы с лучшим опытом?

И интернет-бизнес, такой как Netflix, решает использовать службу кэширования, такую как CDN, поверх Интернета, чтобы объединить историю подключений с отслеживанием состояния для набора фильмов и распространять контент как можно ближе к клиентам по запросу. Когда клиент запрашивает у Netflix фильмы, Netflix перенаправляет их на ближайший кеширующий сервер для загрузки видео. И клиенты могли наслаждаться видео, не раздражаясь от постоянной загрузки. Ролик вроде бы предварительно скачал в свои системы.

Например, клиент в Пало-Альто хочет посмотреть фильм Железный человек, кликнуть и отправить запросы на сервер Netflix. Когда сервер идентифицирует местоположение как Пало-Альто, сервер перенаправляет запрос на узел CDN в Пало-Альто, и узел начинает потоковую передачу фильма Железный человек пользователям.

Эта распределительная сеть общедоступного Интернета также является основным методом распространения другого видеоконтента, такого как видео на YouTube, аудиоконтента, такого как подкаст. Контент передается по проводу (или по беспроводной сети), и кинопленка, распространяемая кинотеатром, выглядит громоздко, а поход в кинотеатр и поиск парковки в городе очень неудобны. Это также делает одностороннюю телепрограмму, которая строго следует заранее установленному расписанию вещания, выглядит менее доступной.

Следующая сетка

Во многих случаях использования Интернета вы большую часть времени являетесь получателем информации. Это делает появление браузера великим изобретением для раннего большинства Интернета. Действия пользователя — клики и набор нескольких слов для запроса доступа к сервису.

И во многих случаях использования искусственного интеллекта вы и ваш поставщик услуг являетесь клиентом и сервером в разных терминах. Вы, как сервер, предоставляете данные для нейронных сетей. И Вы, как клиент, получаете услугу от своего провайдера.

Эта модель не нова, но объем контента, которым делятся сегодня, — это капля в море по сравнению с тем, что будет создано в ближайшие 20 лет.

Объединение моментов

Позвольте мне поделиться несколькими историями о распространении киноконтента и агрегации показателей.

В Китае пользователь классифицирует некоторые сцены фильма как «Няо Дяо» (尿点). Фраза означает, что вы можете бежать в туалет, потому что в сцене нет важной информации, и это не стоит того, чтобы оставаться на месте и не ходить в туалет.

И позвольте мне поделиться еще одной фразой о фильме под названием «Гао Нэн» (高能). Эта фраза означает, что вы предупреждены о том, что сцена в следующие несколько секунд может содержать очень выразительный контент, и некоторые из них могут вызвать у вас дискомфорт. Эту фразу начали использовать в фильмах ужасов. И он все чаще используется в пользовательском контенте.

Эти точки данных структурно фиксируются от уровня пользователя до уровня группы и масштабируются с помощью датчиков для обнаружения этих моментов. И этот уровень семантики может иметь гораздо большее влияние, чем файлы cookie сеанса и несколько кликов.

Сеть

И с этой историей мы могли бы обобщить, чтобы увидеть, каков сегодня трафик в распределительной сети Интернета. Видео и подкасты доминируют в сетевом трафике. И он продолжает расти с увеличением числа пользователей со всего мира, подключающихся к сети.

Он также растет с экспоненциальным ростом поставщиков видеоконтента, когда планка производства смещается от профессионального производителя к любительскому продюсеру на такой платформе, как TikTok, с камеры SONY за 12 000 долларов на дрон с камерой за 1049 долларов.

И отслеживание действий пользователей в последние годы стало намного более зрелым, чтобы записывать от онлайн-следа пользователя в Интернете до офлайн-следа, такого как жизненно важная информация о личном здоровье, физическое перемещение в городах.

С учетом этих новых тенденций мы увидим новую модель сети как распределительную сеть для масштабирования услуг, предоставляемых глубокой нейронной сетью.

В новой модели мы увидим два новых паттерна. Первый шаблон — это агрегация данных. Сервер собирает потоковые данные от клиентов для передачи их нейронным сетям.

Интернет использует распределительную сетку для оптимизации распределения, а не агрегации в том смысле, что многие дополнительные услуги сегодня предназначены для повышения производительности одностороннего распространения контента на краях.

Коммуникационная модель граничного доступа к сервисам, основанным на глубокой нейронной сети, переходит от клиента к одновременно клиенту и источнику данных.

А в примере с Netflix отслеживание истории просмотров пользователя будет более эффективным, если привязать среду и контекст, в котором пользователь смотрит шоу.

С появлением множества дешевых и инновационных датчиков обнаружение этих датчиков может создать осмысленную сцену, в которой пользователь может совершить неявное или явное действие. Таким образом, объем данных представляет собой уравнение

количество датчиков на клиента * клиенты * выборка потока временных рядов

И это поворотный момент агрегации произошел ближе к краю, и этот новый шаблон потоковой передачи с высокой пропускной способностью перегрузит распределительную сеть, если не будет предпринято никаких действий вблизи края.

И при этом у нас есть сеть для агрегации.

Узел CAN-прокси присоединяется к потоку данных, отправляемому от клиентов, и сохраняется локально. Обилие данных исходит из контекста сегментированного сценария. Первым шагом сценария сегментации является физическая среда. А контекст среды — это источник потоковых данных для создания среды, в которой вы смотрите фильмы или совершаете покупки в Интернете.

Ваша матрица

В контексте окружающей среды в игру вступают ваши предпочтения и ваша личность. Netflix реконструирует вашу личность как потребителей фильмов в векторе, коррелируя с окружающей средой как матрицей, в которой вы смотрите шоу.

И этот вектор и матрица расположены для вас закрыты по двум причинам. Первая причина — минимизация задержки. Но Netflix в будущем сделает это не только для минимизации задержки. Это происходит потому, что ваши данные регулируются регионами.

Многие регионы работают над политикой публикации, чтобы регулировать физическое расположение данных, конфиденциальность данных и право собственности на данные.

Представьте, что ваши данные в регионе никогда не могут быть выпущены за пределы региона по закону. И Netflix не мог перенести вашу историю просмотров на сервер в другом регионе.

Ваши данные соответствуют региональному законодательству и вашему пользовательскому лицензионному соглашению о том, как Netflix может обрабатывать вашу историю просмотров. Представьте, что данные истории просмотров можно было бы лицензировать так же, как это делает сегодня сообщество с открытым исходным кодом.

Лицензия MIT: бесплатно для использования, бесплатно для некоммерческих и коммерческих организаций.
Mozilla Public License 2.0: делиться данными, когда используются текущие данные

Модель

Распределительная сеть сервисов на базе искусственного интеллекта — это больше, чем просто агрегация данных, она также агрегирует и распространяет рекомендательную модель рядом с вами.

Netflix будет обучать и сжимать меньшую модель нейронной сети, которая рекомендует несколько фильмов для вашего следующего выбора и распространять их по сети CAN в вашем регионе.

Почему Netflix хочет это сделать?

Из-за зависимости модели от данных, на которых она обучалась. Что Netflix должен обучить модель в вашем регионе и развернуть модель, которая никогда не будет делиться с другими, потому что модель обучается на данных, регулируемых в регионе.

А учитывая зависимость модели от данных, которые она использует для обучения, модель должна быть лицензирована в зависимости от лицензии ее обучающих данных.

Оторван от сети

Следующей распределительной сетью будет сеть, выделенная и масштабируемая для услуг, основанных на глубокой нейронной сети. И вопрос стал

Хотите отсоединиться от следующей сетки?

В частности, могли бы вы отключиться от сети и пользоваться услугой «офлайн»?

Возможно, нет, нет, в большинстве случаев односторонняя модель клиент-сервер не оптимизирована для сервисов, основанных на искусственном интеллекте.

Причина в том, что, во-первых, вы не можете пользоваться персонализированным обслуживанием без пассивного или активного предоставления своих данных. Во-вторых, с обилием услуг, предоставляемых все более и более монопольными поставщиками услуг, услуги с длинным хвостом необходимо разделить на множество микросервисов. И вы должны быть идентифицированы и сопоставлены с вашими данными, чтобы получить услугу, в которой вы действительно нуждаетесь. В противном случае вы бы потерялись в каталогах услуг точно так же, как нашли бы услугу по уборке газонов в столбцах списков в Craiglist.

Сеть для услуг

Отстающий

При обилии продуктов и товаров наши дома наполняются все большим количеством потребительских товаров, образующих беспорядок. Беспорядок, накопленный за несколько десятилетий волнами праздничного сезона покупок, и когнитивная нагрузка по управлению им стали головной болью для многих семей в развитых странах.

Но на рынке услуг, таких как здравоохранение и образование, у нас никогда не было этого «беспорядка», мы все еще потребляем больше.

Почему мы не можем потреблять больше сегодня?

Потому что мы еще не произвели достаточно. Ограничением является то, что предложение этих услуг строго регулируется лицензированием для выхода на рынок и работы, и что регулирующие органы настолько осторожны, чтобы регулировать масштаб этих услуг.

Можем ли мы потреблять больше услуг в следующем десятилетии?

Да мы можем. Мы сможем, когда сервис станет микросервисом.

Выпуск каждые 3 месяца

Служба может быть сегментирована с меньшей степенью детализации как специализированные микрослужбы. Выгода от этого — единица масштабирования.

Показатели качества обслуживания легче определять, отслеживать и регулировать
Отзывы менее субъективны, потому что пользователи более сегментированы.

В Udacity есть программа под названием «наностепень», по которой вы сертифицированы для получения степени, позволяющей овладеть набором навыков, необходимых и определенных для субдомена.

И вы получаете квалификацию «Мобильный разработчик» после трехмесячной программы, чтобы подтвердить свои навыки в разработке мобильных приложений. И вы начинаете свой карьерный путь и практикуете свое обучение с этой сертификацией.

Итак, представьте, что вы находитесь в режиме обучения, выпуска и практики, предоставляемых этими микрообразовательными услугами каждые несколько месяцев.

Проблема конфиденциальности в здравоохранении

Учитывая, что данные могут так много значить для здравоохранения, а прогресс в здравоохранении гораздо медленнее, чем в других областях. Это почему?

Автомобиль-самосвал имеет в среднем 60 датчиков, которые постоянно определяют все виды внутренних показателей, чтобы защитить себя. «Умный» автомобиль имеет в среднем 200 датчиков для этого.

Сколько датчиков вы носите ежедневно, чтобы постоянно отслеживать ваши физические показатели и исследовать окружающую среду, чтобы уведомлять, предупреждать и защищать вас? Может быть, ваши Apple Watch и ваш iPhone? Почему так?

Причина в незрелой интерпретации этих данных о здоровье. Это далеко не соединение точек от жизненно важных данных до онтологии предметной области. Человеческое тело намного сложнее любой машины, которую мы когда-либо создавали. И практический разрыв между опытным экспертом в области здравоохранения и инженером-программистом так велик, что знания, накопленные экспертом на основе опыта, никогда не выражались и не накапливались в цифровой форме в сети программного обеспечения в масштабе.[2]

Но это не значит, что мы не можем начать что-то делать с этими медицинскими данными уже сегодня. Позвольте мне поделиться одним примером. Одной из концепций здравоохранения в отношении данных является физический жизненный базовый уровень. Базовый уровень физических показателей жизнедеятельности — это среднее значение показателей жизненно важных показателей временного ряда, таких как температура тела, артериальное давление, пульс (частота сердечных сокращений) и частота дыхания. Нормальные диапазоны показателей жизнедеятельности человека зависят от возраста, веса, пола. Кроме того, личный базовый уровень жизненно важных функций может сильно отличаться от популяции.[2]

Многие алгоритмы диагностики реализованы на основе популяционной статистики. Но гораздо разумнее ставить диагноз на основе смещения от исходных личных данных.

С введением большего количества датчиков, собирающих данные о нашем теле, мы соединим точки, чтобы собирать и интерпретировать их. И до того, как этот день наступит, нам нужно решить одну проблему — проблему защиты конфиденциальности данных пациентов в любом масштабе.

Лицензируйте себя

В Соединенных Штатах закон, защищающий конфиденциальность пациентов, может защитить от неправомерного использования их записей поставщиком медицинских услуг. Но эта строгая практика регулирования также приводит к недостаточному использованию этих записей пациентов и, что более важно, к упущению возможности создания сети с накопленными записями, практикой и отзывами, которые в конечном итоге принесут пользу всем.

Но закон позволяет пациентам распространять свои записи по своему желанию. Это открывает новую модель распространения, и защита конфиденциальности может быть восстановлена с помощью услуг, основанных на искусственном интеллекте.

Что такое модель? Как модель защищает частную жизнь пациента и создает положительный внешний эффект сетевых знаний? Как масштабируется распределительная сеть услуг?

Во-первых, краям, персональным устройствам терпения, необходимо зашифровать запись перед любым распространением и приложить «Срок использования данных». В «Сроке использования данных» указано, как данные могут быть лицензированы.

В распределенной сетке прокси-серверы пограничных серверов для поставщика медицинских услуг будут интерпретировать «Срок использования данных».

И это функция интерпретации «Срок использования данных» узла PMN. Это узел маскировки конфиденциальности, который маскирует любые записи потоковой передачи в соответствии с их собственными условиями использования данных. Узел присоединяется и создает поднабор данных на основе столбца требования конфиденциальности и требования распределения в «Условии использования данных». И каждый набор данных распределяется по конвейерам сортировки записей терпения по этим требованиям конфиденциальности.

Это может масштабироваться, когда прокси-сервер, такой как Privacy-Masking-Node, формирует сеть для защиты конфиденциальности медицинских данных на периферии.

Что дальше

В следующей статье мы рассмотрим архитектуру Интернета и рассмотрим, как некоторые из дизайнерских идей Интернета могут быть применены к масштабируемым сервисам на основе искусственного интеллекта.

Требовать

Я использовал много примеров Netflix для обсуждения проблемы и решения, чтобы аудитория могла понять это интуитивно, но это не означает, что Netflix делает то же самое.

Ссылка

Претензия: многие моменты напрямую заимствованы из a16z, либо интерпретированы в моей версии. Кредит им.

[1] http://cdixon.org/2019/01/08/strong-and-weak-technologies/

[2] https://a16z.com/2019/01/15/dark-data-healthcare-patients-platforms-hipaa/